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奋 联网 已 经 成 为 人 们 获取 信息 ,相互 交流 ,协同 工作 的 重要 途径 ,但 同时 也 带 来 一 些 负面 
影响 ,如 色情 、 反 动 等 不 良 信息 在 网 络 上 大 肆 传 播 , 垃 圾 邮件 .广告 等 恶意 营销 行为 泛 
滥 , 网 络 欺诈、 钓鱼 以 及 网 络 暴力 ,网络 恐 怖 主义 等 恶意 行为 层出不穷 。 这 些 恶 意 信息 
和 行为 完全 背离 了 互联 网 设计 的 初衷 ,也 不 符合 广大 网 民 的 意愿 ,并 且 影 响 到 现实 的 
正常 秩序 和 规范 。 因 此 研究 网 络 信息 内 容 安全 ,提供 对 互联 网 中 各 种 不 利信 息 的 检 
测 分 析 能 力 , 是 体现 我 国信 息 技术 水 平 的 重要 环节 ,也 是 建设 信息 化 社会 的 坚实 
保障 。 

互联 网 上 各 种 不 良 信息 和 行为 的 产生 ,其 原因 主要 在 于 互联 网 作为 一 个 内 容 平 台 ， 
人 们 可 以 更 便利 地 获取 ,发 布 信息 ,而 在 互联 网 爆发 性 发 展 过 程 中 ,相关 的 规范 制度 、 安 
全 技术 研究 却 未 能 同步 发 展 。 网 络 信 息 内 容 安 全 作为 信息 安全 领域 的 一 个 研究 分 支 ， 
是 上 述 问 题 的 解决 方案 , 它 主要 研究 如 何 从 包含 海量 信息 的 网 络 环境 中 ,对 特定 安全 主 
题 的 相关 信息 进行 自动 获取 ,识别 和 分 析 的 技术 。 该 研究 分 支 涉及 的 相关 技术 包括 信 
息 安全 、 自 然 语 言 处 理 、 网 络 理论 、 机 器 学 习 、 模 式 识别 等 ,直接 或 间接 应 用 到 这 些 研究 
领域 的 最 新 研究 成 果 。 结 合 网 络 信息 内 容 安全 的 具体 需求 ,本 书 全 面 介绍 面向 信息 内 
容 安 全 的 网 络 信息 处 理 技术 的 相关 基本 概念 理论 方法 和 最 新 研究 进展 等 ,着 重 阐述 网 
络 信 息 内 容 安 全 的 若干 关键 技术 一 一 信息 过 滤 、 话 题 检测 与 跟踪 、 社 会 网 络 分 析 、 网 络 
新 闻 评 价 、 网 络 与 情 分 析 等 。 本 书 既 有 对 基础 知识 和 理论 模型 的 介绍 ,也 有 对 相关 问题 
研究 背景 实现 方法 和 技术 现状 的 详细 站 述 。 目 前 市 面 上 缺乏 对 网 络 信 息 内 容 等 技术 
进行 系统 介绍 的 书籍 ,本 教材 以 研究 型 课程 为 特征 ,着 重 培养 学 生 的 思考 能 力 和 初步 的 
研究 能 力 , 可 以 让 授课 教师 和 学 生 迅 速 了 解 网 络 信息 内 容 安全 的 核心 技术 ,同时 让 大 家 
了 解 网 络 信息 内 容 安全 的 实际 应 用 。 本 书 主要 面向 高 等 院 校本 科 生 ,理论 与 应 用 相 结 
合 是 本 书 的 一 大 特色 。 内 容 编 排 时 兼顾 学 科 前 沿 研究 和 实际 应 用 背景 。 该 书 有 助 于 发 
掘 学 生 的 科研 兴趣 、 提 升学 生 的 就 业 层 次 、 满 足 人 才 市 场 的 需求 。 

本 书 各 章 编写 分 工 如 下 : 杨 黎 斌 编写 第 1、5 章 ; 化 晓 妍 编写 第 2、3 章 ; 戴 航 编写 
第 4 章 ; 摹 德 俊 编写 第 6 章 ; 李 梅 编写 第 7 章 , 张 晓 婷 编写 第 8 章 。 杨 黎 斌 负责 全 书 的 
策划 大纲 的 制定 和 统 稿 工作 。 
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1.1 网 络 信息 内 容 安全 的 背景 


1.1.1 我 国 互联 网 发 展现 状 


近 几 十 年 来 ,互联 网 的 迅速 发 展 , 不 仅 促进 了 全 世界 范围 内 信息 的 有 效 传播 与 流通 ,而 
且 对 科学 研究 、 工 商行 业 的 发 展 乃 至 人 们 的 日 常生 活 方式 都 带 来 了 深远 影响 。 自 20 世纪 
90 年 代 开始 ,我 国 的 互联 网 行业 也 经 历 了 从 无 到 有 、 从 小 到 大 的 跨越 式 发 展 历程 。 根 据 ( 第 
37 次 中 国 互联 网 络 发 展 状况 统计 报告 ,截至 2015 年 12 月 ,我国 网 民 规模 达到 6. 88 亿 , 互 
联网 普及 率 达 到 50.3%, 中 国 居民 上 网 人 数 已 过 半 。《 报 告 ) 同 时 显示 ,网 民 的 上 网 设备 正 
在 向 手机 端 集中 ,手机 成 为 拉动 网 民 规模 增长 的 主要 因素 。 

在 信息 化 已 成 为 世界 发 展 趋势 的 背景 下 ,互联 网 有 着 应 用 极为 广泛 ,发展 规模 最 大 、 非 
常 贴近 人 们 生活 等 众多 特点 。 一 方面 ,互联 网 创造 出 巨大 的 经 济 效益 和 社会 效益 ,如 新 兴 的 
网 络 公司 在 互联 网 上 建立 业务 并 迅速 发 展 , 传 统 行业 也 纷纷 将 自身 的 业务 和 网 络 应 用 结合 
起 来 , 它 已 经 成 为 人 们 获取 信息 、 互 相交 流 .协同 工作 的 重要 途径 ; 另 一 方面 ,互联 网 也 带 来 
一 些 负面 影响 ,如 色情 、 反 动 等 不 良 信 息 在 网 络 上 大 量 传播 ,垃圾 电子 邮件 等 不 正当 行为 泛 
滥 , 利 用 网 络 传播 电影 .音乐 .软件 等 的 侵犯 版 权 行为 ,网 络 欺诈 以 及 网 络 暴力 和 网 络 恐 怖 主 
义 活 动 等 问题 层出不穷 ,这 些 行 为 完全 背离 了 互联 网 设计 的 初衷 ,也 不 符合 广大 网 络 用 户 的 
意愿 。 因 此 ,在 建设 信息 化 社会 的 过 程 中 ,提高 信息 安全 保障 水 平 及 对 互联 网 中 各 种 不 良 信 
息 的 监测 能 力 , 是 体现 国家 信息 技术 水 平 的 重要 一 环 ,也 是 顺利 建设 信息 化 社会 的 坚实 
基础 。 

互联 网 上 各 种 不 良 信息 的 流传 和 不 规范 行为 的 产生 ,其 原因 可 归结 为 两 类 : 一 类 是 由 
于 在 互联 网 爆炸 性 发 展 过 程 中 相关 方面 的 规范 和 管理 措施 未 能 同步 发 展 导 致 的 。 在 互联 网 
发 展 的 初期 阶段 ,用 户 数目 很 少 , 且 多 数 用 户 是 从 事 学 术 研究 的 工作 人 员 , 网 络 也 没有 涉及 
商业 领域 的 应 用 ,所 以 网 络 安全 问题 并 不 突出 。 如 今 , 这 种 局 势 已 经 发 生 了 巨大 变化 ,一 些 
原 有 的 网 络 模式 不 再 适应 现在 的 发 展 需求 。 另 一 类 是 由 于 互联 网 作为 一 个 新 生 事物 ,为 人 
们 提供 了 便利 获取 与 发 布 信息 的 新 途径 ,营造 出 前 所 未 有 的 思想 碰撞 场所 ,相对 于 传统 媒 
体 ,互联 网 上 更 容易 出 现 一 些 另 类 、 新 奇 \ 不 易 理 解 或 不 符合 规范 的 行为 和 信息 内 容 。 互 联 
网 将 整个 世界 变 成 了 “地 球 村 ”, 聚 集 了 各 种 思想 、 观 点 的 人 和 事物 ,以 及 各 种 形式 的 信息 内 
容 和 安全 问题 ,这 也 是 一 个 长 期 存在 的 客观 现实 。 面 对 这 种 挑战 .人 们 不 应 * 因 嘻 废 食 ” 一 一 
因为 互联 网 上 存在 的 一 些 安全 问题 和 不 良 信 息 而 变 得 县 惧 或 排斥 新 技术 、 新 事物 ; 应 当 通 
过 法 律 与 技术 等 多 方面 的 措施 来 抵制 和 消除 不 良 现象 .让 互联 网 更 好 地 为 人 们 服务 ,使 得 人 
人 都 能 更 高 效 、 更 自由 地 利用 互联 网 信息 内 容 并 为 之 所 用 ,发 挥 更 大 的 效益 。 
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1.1.2 网 络 信息 内 容 特点 


与 传统 的 信息 资源 相 比 ,网 络 信息 内 容 在 数量 、 结 构 、 分 布 和 传播 的 范围 .载体 形态 、 内 
涵 传 递 手 段 等 方面 都 显示 出 新 的 特点 。 

1. 存储 数字 化 ,传输 网 络 化 

信息 资源 由 纸张 上 的 文字 变 为 磁 介 质 上 的 电磁 信号 或 者 光 介 质 上 的 光 信 息 ,存储 的 信 
息 密度 高 .容量 大 。 以 数字 化 形式 存在 的 信息 ,可 以 通过 信息 网 络 进行 远 距 离 传送 。 传 统 的 
信息 存储 载体 为 纸张 磁带、 磁盘。 而 在 网 络 时 代 , 信 息 的 存在 是 以 网 络 为 载体 ,这 大 大 提高 
了 网 络 信息 内 容 的 利用 与 共享 程度 。 

2. 表现 形式 多 样 化 .内 容 丰 富 

网 络 信息 内 容 包罗 万 象 ,覆盖 了 不 同学 科 、 不 同 领域 ,不 同 地 域 ` 不 同 语言 的 信息 资源 ， 
还 可 以 以 文本 、 图 像 音频、 视频 .数据库 等 多 种 形式 存在 。 信 息 组 织 非 线性 化 , 超 文本 、 超 媒 
体 信 息 资 源 成 为 主要 方式 。 

3. 数量 巨大 ,增长 迅速 

中 国 互 联网 络 信息 中 心 CCNNIC) 于 2016 年 1 月 发 布 的 第 37 次 (互联 网 络 发 展 状况 统 
计 报 告 ) 全 面 反映 了 中 国 互联 网 络 的 发 展 状况 。 从 该 次 报告 中 可 以 看 出 ,截至 2015 年 12 月 
30 日, 中国 网 民 规模 达到 6. 88 亿 , 网 站 数量 达到 423 万 ,2015 年 网 页 数量 达到 2123 亿 , 增 
长 迅速 。 网 络 信息 量 之 大 、 增 长 速度 之 快 ,传播 范围 之 广 ,是 其 他 任何 环境 下 的 信息 资源 所 
无 法 比拟 的 。 

4, 传播 速度 快 , 范 围 广 , 具 有 交互 性 

网 络 环境 下 ,网络 信 息 内 容 的 传递 和 反馈 快速 ,灵敏 。 信 息 内 容 在 网 络 上 的 流动 非常 迅 
速 ,电子 流 取代 纸张 ,加 上 无 线 电 技术 和 卫星 通信 技术 的 充分 运用 ,上传 到 网 上 的 任何 信息 
资源 ,都 只 需要 短 短 数秒 就 能 传递 到 世界 各 地 的 每 一 个 角落 。 由 于 信息 源 增多 ,网 络 信息 内 
容 发 布 自由 ,网 络 信息 内 容 呈 爆炸 性 增长 。 随 着 网 络 的 普及 化 ,其 传播 范围 将 越 来 越 广 。 与 
传统 的 媒介 相 比 ,网 络 信息 传播 具有 交互 性 。 它 具有 主动 性 .参与 性 和 操作 性 ,人 们 自己 主 
动 到 网 上 数据 库 查 找 所 需 的 信息 ,网 络 信息 内 容 的 流动 是 双向 互动 的 。 

5. 结构 复杂 .分布 广泛 

网 络 信息 内 容 本 身 的 组 织 管理 没有 统一 的 标准 和 规范 ,信息 广泛 分 布 在 不 同 国家 、 不 同 
区 域 ,不 同 地 点 的 服务 器 上 ,不 同 服务 器 采用 不 同 的 操作 系统 .数据 结构 .字符 集 和 处 理 方 
式 , 缺 乏 集中 统一 的 管理 机 制 。 

6. 信息 源 复杂 无 序 

网 络 的 共享 性 与 开放 性 使 得 人 人 都 可 以 在 互联 网 上 索取 信息 和 存放 信息 ,由 于 没有 质 
量 控 制 和 管理 机 制 ,这 些 信息 没有 经 过 严格 编辑 和 整理 , 良 藩 不 齐 , 各 种 不 良和 无 用 的 信息 
大 量 充斥 在 网 络 上 ,形成 一 个 纷繁 复杂 的 信息 世界 。 

网 络 信息 被 存放 在 网 络 计算 机 上 .由 于 缺乏 统一 的 控制 ,质量 参差 不 齐 , 网 络 信息 内 容 
分 布 分 散 , 开 发 显得 无 序 化 。 





7. 动态 不 稳定 性 

Internet 信息 地 址 、 链 接 和 内 容 处 于 经 常 性 变化 之 中 ,信息 源 存在 状态 的 无 序 性 和 不 稳 
定性 使 得 信息 的 更 迭 、 消 亡 无 法 预测 ,这 些 都 给 用 户 选择 、 利 用 网 络 信息 带 来 了 障碍 。 

网 络 信息 的 这 些 特点 决定 了 其 容易 成 为 网 络 欺诈 .钓鱼 以 及 网 络 暴力 、 网 络 念 怖 主义 等 
恶意 行为 的 载体 ,因此 研究 网 络 信息 内 容 安全 ,提供 对 互联 网 中 各 种 不 利信 息 的 检测 分 析 能 
力 ,是 体现 我 国信 息 技术 水 平 的 重要 环节 ,也 是 建设 信息 化 社会 的 坚实 保障 。 


1.2 网 络 信息 内 容 安 全 的 概念 


1.2.1 网 络 信息 内 容 安 全 的 定义 


网 络 信息 内 容 安全 是 研究 如 何 利用 计算 机 从 动态 网 络 的 海量 信息 中 ,对 与 特定 安全 主 
题 相关 的 信息 进行 自动 获取 、 识 别 和 分 析 的 技术 。 在 研究 文献 和 实际 应 用 中 ,网 络 内 容 安 全 
目前 大 致 可 分 为 两 类 : 第 一 类 是 基于 内 容 的 访问 控制 ,包括 网 络 协 议 恢复 、 基 于 数据 包 的 流 
量 监 测 、 特 征 码 匹配 的 病毒 防护 、 基 于 内 容 的 反 垃圾 邮件 等 技术 ; 第 二 类 是 基于 信息 传播 的 
互联 网 安全 管理 问题 ,反映 的 是 网 络 用 户 公开 发 布 的 信息 所 带 来 的 社会 公共 安全 问题 ,这 里 
面 所 涉及 的 技术 主要 包括 主题 信息 监控 ,与 情 监控 ,社交 网 络 社团 挖掘 等 。 本 书 认为 ,第 一 
类 内 容 安全 应 用 所 解决 的 问题 ,无论 从 技术 还 是 表现 形式 上 ,更 偏向 于 传统 安全 ,可 以 依赖 
于 传统 信息 安全 技术 解决 。 而 第 二 类 基于 信息 传播 的 内 容 安全 问题 在 近 几 年 显得 尤为 突 
出 ,并 且 涉 及 国计民生 ,对 于 社会 和 公民 产生 的 影响 更 为 直接 和 严峻 ,同时 学 术 界 在 提 到 互 
联网 信息 内 容 安全 时 ,也 普遍 默认 为 第 二 类 内 容 安全 是 今后 安全 防范 的 趋势 。 因 此 ,本 书 所 
研究 的 网 络 内 容 安全 问题 默认 是 指 第 二 类 内 容 安 全 。 一 般 来 
讲 , 传 统 的 信息 安全 体系 中 并 不 包括 信息 内 容 安全 ,但 随 着 网 
络 的 大 规模 普及 .信息 内 容 安全 所 遭受 的 威胁 日 渐 突出 ,从 国 
家 层面 ,公安 机 关 和 文化 部 门 需要 网 络 信息 安全 技术 来 保护 社 


会 稳定 和 文化 安全 ,从 单位 层面 , 企 事业 单位 需要 维护 单位 形 
象 . 避 免 谣言 和 竞争 对 手 的 诽谤 等 带 来 的 影响 。 近 年 来 ,网 络 


信息 内 容 安全 越 来 越 被 认可 ,并 已 经 纳入 信息 安全 体系 。 传 统 
信息 安全 层次 包括 物理 安全 、 运 行 安全 和 数据 安全 ,这 3 个 层 
次 所 面临 的 安全 问题 十 分 严峻 ,但 往往 是 普通 用 户 肉 眼 所 感受 
不 到 的 潜在 安全 问题 ,而 逐渐 兴起 的 网 络 信息 内 容 安全 问题 更 ”图 1-1 信息 安全 层次 结构 
为 公开 ,可 利用 的 人 口 资源 更 丰富 ,如 图 1-1 所 示 。 

网 络 信息 内 容 安全 处 在 安全 体系 中 的 最 上 层 ,更 倾向 于 信息 自身 的 安全 ,因此 更 容易 被 
利用 。 


1.2.2 网 络 信息 内 容 安全 的 特点 
网 络 信息 内 容 安 全 作为 一 门 新 兴 的 课题 ,以 互联 网 为 载体 ,有 着 自身 的 特点 。 
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(1) 网 络 内 容 安全 既是 一 门 新 兴 的 课题 ,又 需要 多 个 学 科 进 行 交 叉 研 究 。 在 信息 科学 
与 技术 领域 , 它 不 同 于 传统 的 信息 安全 问题 ,是 一 个 综合 交叉 学 科 , 所 用 到 的 技术 涉及 数据 
挖掘、 话题 识别 与 跟踪 、 信 息 过 滤 、 社 会 网 络 计 算 、 自 然 语 言 处 理 ,数据 存储 技术 等 ,涵盖 计算 
机 科学 领域 的 很 多 方向 。 而 在 非 计算 机 科学 与 信息 安全 领域 ,对 于 内 容 安 全 的 研究 又 大 量 
涉及 法 学 传播 学 、 管 理学、 情报 学 、 心 理学 、 社 会 学 等 学 科 , 这 些 学 科 使 得 网 络 信息 内 容 安 全 
不 再 仅仅 像 传统 信息 安全 那样 只 局 限于 技术 领域 ,对 它 的 研究 将 更 加 复杂 和 丰富 。 

(2) 网 络 内 容 安全 以 互联 网 为 研究 载体 。 在 互联 网 上 发 布 和 获取 信息 都 十 分 便利 ,这 
也 是 网 络 内 容 安 全 问题 的 一 个 重要 诱因 ,因此 在 网 络 信息 内 容 研 究 中 ,从 互联 网 技术 角度 和 人 
手 仍 然 是 对 网 络 信息 内 容 安全 管理 最 有 效 的 手段 ,尤其 是 对 于 新 的 应 用 应 当 格外 关注 。 

(3) 网 络 信息 内 容 安全 问题 面 对 的 是 海量 信息 。 传 统 安全 更 关注 封闭 式 网 络 安全 , 防 
止 外 界 的 攻击 ,相对 来 说 数据 流量 规模 较 小 。 而 互联 网 是 一 个 开放 的 平台 ,信息 来 源 广 、 传 
播 途 径 多 ,因此 在 海量 数据 中 挖掘 出 潜在 的 安全 问题 是 对 网 络 内 容 安全 挖掘 技术 的 考验 。 

(4) 网 络 信息 内 容 安全 虽 不 同 于 传统 信息 安全 ,但 传统 安全 是 信息 内 容 安 全 的 有 力 保 
障 , 例 如 维护 网 络 和 服务 器 的 正常 工作 ,保持 数据 传输 的 顺利 进行 。 

网 络 信息 内 容 安全 的 这 些 特 点 决定 了 其 研究 手段 和 方法 与 传统 信息 安全 存在 显著 区 
别 , 需 要 加 强 网 络 信息 内 容 安全 技术 的 研究 ,以 实现 互联 网 的 健康 有 序 发 展 。 


1.2.3 网络 信 息 内 容 安全 与 相关 学 科 的 关系 


作为 新 兴 的 边缘 交叉 学 科 , 网 络 信息 内 容 安全 与 相关 学 科 , 尤 其 是 信息 安全 学 科 息 息 相 
关 。 本 节 从 学 科 外 延 与 内 涵 \ 学 科 科 学 研究 方法 以 及 (信息 安全 专业 指导 性 专业 规范 ) 方 面 
分 析 这 两 者 的 关系 。 

1. 学 科 外 延 及 内 涵 的 关系 

信息 安全 学 科 是 研究 确保 信息 的 完整 性 、 可 用 性 、 保 密 性 、 可 控 性 以 及 可 靠 性 的 一 门 综 
合 性 新 型 边缘 学 科 。 信 息 安 全 学 科研 究 内 容 包括 信息 设备 安全 、 数 据 安全 、 内 容 安 全 和 行为 
安全 四 个 方面 问题 。 信 息 系统 硬件 结构 的 安全 和 操作 系统 的 安全 是 信息 系统 安全 的 基础 ， 
密码 、 网 络 安全 等 技术 是 关键 技术 。 只 有 从 信息 系统 硬件 和 软件 的 底层 采取 安全 措施 ,从 整 
体 上 采取 措施 ,才能 比较 有 效 地 确保 信息 系统 的 安全 。 当 前 ,信息 安全 学 科 的 主要 研究 方向 
有 密码 学 、 网 络 安全 、 信 息 系 统 安全 和 信息 内 安全 。 可 以 预计 , 随 着 信息 安全 科学 技术 的 发 
展 和 应 用 ,一 定 还 会 产生 新 的 信息 安全 研究 方向 ,信息 安全 的 研究 内 容 将 更 加 丰富 。 网 络 信 
息 内 容 安全 是 以 网 络 为 主要 研究 载体 .此 外 ,报纸 .杂志 、 广 播 .电视 等 传播 媒体 形式 也 涉及 
内 容 安全 问题 。 对 于 所 处 理 信息 的 判定 方法 和 标准 ,与 信息 安全 学 科 在 原理 上 是 一 致 的 。 
但 是 在 具体 实现 技术 方面 ,网 络 内 容 存储 在 计算 机 上 ,更 方便 于 利用 计算 机 自动 处 理 ;， 而 且 
由 于 网 络 信息 量 大 、 信 息 发 布 来 源 众 多 ,对 自动 处 理 功 能 有 更 强烈 的 需求 和 更 大 的 技术 挑 
战 。 网 络 信息 内 容 安全 与 计算 机 和 网 络 系统 安全 相 比 较 , 着 重 强调 的 是 网 络 上 传输 信息 的 
内 容 安 全 问题 ,不 等 同 于 硬件 设备 ,操作 系统 和 应 用 软件 的 安全 问题 ,但 计算 机 与 网 络 系统 
的 正常 工作 ,为 信息 内 容 安 全 系统 的 正常 运行 提供 了 基础 。 网 络 信息 内 容 安全 属于 信息 安 
全 分 析 技 术 的 一 个 分 支 。 对 特征 选取 、 数 据 挖掘 .机 器 学 .信息论 和 统计 学 等 多 门 学 科 的 研 
究 , 不 仅 促进 了 信息 分 析 技术 的 发 展 ,也 为 信息 内 容 安 全 的 研究 提供 了 技术 支持 。 信 息 内 容 
安全 关注 与 安全 相关 的 内 容 分 析 , 在 处 理 对 象 , 研 究 方法 的 侧重 点 、 对 数据 吞吐 量 及 对 处 理 
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结果 响应 速度 等 方面 的 要 求 有 其 自身 特点 。 由 此 可 知 , 信 息 安 全 包含 网 络 信息 内 容 安全 。 

根据 表 1-1, 网 络 信息 内 容 安全 主要 是 研究 禁止 非法 的 内 容 进 入 和 有 价值 的 内 容 泄露 
的 一 门 学 科 。 网 络 信息 内 容 安 全 关键 技术 主要 包括 : 信息 内 容 管理 (Information Content 
Management,ICM) .信息 内 容 过 滤 (Information Content Filtering,ICF), 信 息 内 容 监控 
(Information Content Monitoring,ICMO) 和 信息 内 容 还 原 (Information Content Restore， 
ICR)。 信 息 内 容 管 理 是 根据 设 定 的 条 件 , 用 户 受 限 浏览 使 用 数字 内 容 , 但 可 以 自由 浏览 使 
用 非 受 限 数字 内 容 。 信 息 内 容 过 滤 是 指 采用 安全 策略 堵塞 或 过 滤 掉 那些 不 良 或 恶意 的 数字 
内 容 。 信 息 内 容 监控 是 由 政府 和 军队 执法 机 构 ( 如 公安 .司法 以 及 军队 有 关 部 门 ) 采 用 安全 
策略 监控 和 管理 与 国家 安全 、 社 会 稳定 .军队 指挥 紧密 相关 的 数字 内 容 , 并 有 权 直 接 处 理 与 
其 安全 策略 不 相符 的 内 容 。 信 息 内 容 还 原 是 指 协议 还 原 技术 ,为 了 保障 网 络 安全 高 效 地 传 
输 , 在 传输 过 程 中 包含 了 大 量 的 协议 ,必须 从 有 效 信息 中 剔 出 协议 数据 ,这 就 是 网 络 协议 还 
原 。 目 前 简要 分 析 的 协议 主要 包括 HTTP、FTP、SMTP、POP3、TELNET 和 各 类 IM 协议 。 
综 上 ,在 外 延 上 ,信息 安全 学 科 包含 了 网 络 信息 内 安全 学 科 ; 在 内 涵 上 ,网 络 信息 内 容 安全 
学 科 以 网 络 信息 为 载体 ,研究 问题 更 为 具体 ,而 信息 安全 学 科研 究 问题 更 为 体系 化 、 结 构 化 
和 全 面 化 。 








表 1-1 网 络 信息 内 容 安全 内 洒 
领域 内 酒 关键 技术 


政治 方面 ”防止 来 自 国 内 外 反动 势力 的 攻击 .诬陷 以 及 西方 的 和 平 演变 阴 “网络 与 情 分 析 ,内容 还 原 
谋 ,维护 社会 稳定 





安全 方面 ”防止 国家 ,军队 和 企业 机 密 信息 被 窃取 泄露 和 流失 开源 情报 分 析 

宗教 方面 ”防止 法 轮 功 等 邪教 组 织 利用 宗教 信仰 传播 不 利于 和 谐 社会 的 ”话题 检测 与 跟踪 
内 容 

破坏 方面 ”防止 病毒 .垃圾 邮件 .网络 蠕 虫 等 恶意 信息 耗费 或 破坏 网 络 内容 过 滤 、 内 容 还 原 
资源 

健康 方面 ”在 传播 过 程 中 剔除 色情 淫秽 和 暴力 内 容 , 使 人 们 健康 上 网 网 络 内 容 过 滤 

生产 方面 ”防止 非 生产 力 网 络 浏览 ,提高 企业 网 络 使 用 效率 内 容 管理 

隐私 方面 ”防止 个 人 隐私 被 瓷 取 、 倒 卖 、 滥 用 和 扩散 开源 情报 分 析 


2. 学 科 科学 研究 方法 区 别 

信息 安全 学 科 是 综合 计算 机 、 电 子 、 通 信和 ,数学 物理、 生物、 管理 .法律 和 教育 等 学 科 发 
展演 绎 而 成 的 交叉 学 科 。 信 息 安 全 学 科 是 研究 信息 的 获取 、 存 储 、 传 输 和 处 理 中 的 安全 威胁 
和 安全 保障 的 新 兴学 科 。 信 息 安全 学 科 已 经 形成 了 自己 的 理论 .技术 和 应 用 ,并 服务 于 信息 
社会 ,信息 安全 学 科 归 于 工学 , 表 1-2 给 出 了 信息 安全 支撑 技术 。 由 于 信息 安全 理论 与 技术 
的 内 容 十 分 广泛 ,信息 安全 学 科 仍 在 发 展 壮大 中 。 

表 1-2 信息 安全 支撑 技术 

信息 安全 支撑 技术 研究 方向 关键 技术 


密码 丽 数 .密码 置换 .序列 及 其 综合 .认证 码 理 论 .有 限 自动 
密码 学 人 机 理论 等 











密码 算法 研究 序列 密码 ,分 组 密码 . 公 钥 密码 、 哈 希 函 数 等 















































续 表 
信息 安全 支撑 技术 研究 方向 关键 技术 
网 网 安全 协议 设计 单机 安全 协议 设计 、 网 络 安全 协议 设计 
安全 协议 分 析 经 验 分 析 法 .形式 化 分 析 
入 各 济世 数字 水 印 数字 版 权 保护 .匿名 通信 等 
Cr 隐蔽 通信 隐 写 术 、 隐 通道 . 阔 下 通信 等 
PKI/KMI/PMI 产生 发布 和 管理 密 钥 与 证 书 等 安全 凭证 
安全 基础 设施 预警 .检测 ,识别 可 能 的 网 络 攻击 ,响应 攻击 并 对 攻击 行为 
检测 /响应 基础 设施 | 进行 调查 分 析 等 
本 访问 控制 ,病毒 检测 与 防范 、 可 信 计 算 平 台 、 主 机 入 侵 检测 、 
系统 安全 主机 安全 审计 ,主机 脆弱 性 扫描 等 
系统 安全 数据 库 安全 ,数据 恢复 与 备份 操作 系统 安全 等 
防火 墙 \VPN、 网 络 和 人 侵 检 测 、 安 全 接 入 、 安 全 隔离 与 交换 、 
网 络 硬件 安全 安全 网 关 等 
网 络 安全 区 内 容 管理 .内 容 过 滤 .话题 跟踪 与 检测 .社会 网 络 分 析 .与 情 
全 利生 全 分 析 .开源 情报 分 析 等 
网 络 行为 安全 网 络 安全 管理 ,网 络 安全 审计 、 网 络 安全 监控 ,应 急 响应 等 








网 络 信息 内 容 安 全 以 网 络 为 主要 研究 载体 ,对 信息 处 理 速 度 要 求 高 ( 近 实 时 ) 、 处 理 知 吐 
量 大 (达到 TB 级 )、 自 动 处 理 功 能 需求 强烈 。 信 息 内 容 安全 属于 通用 网 络 内 容 分 析 技 术 , 对 
特征 选取 数据 挖掘 .机 器 学 习 、 信 息 论 .统计 学 .中 文 信息 处 理 等 多 门 学 科 进 行 研究 ,不仅 促 
进 了 信息 分 析 技 术 的 发 展 , 也 为 网 络 信息 内 容 安全 研究 提供 了 有 力 的 技术 支撑 。 

网 络 信息 内 容 安全 与 信息 安全 研究 方法 的 区 别 如 下 。 

信息 安全 是 使 用 密码 学 方法 为 信息 制作 安全 的 信封 ,解决 信息 的 “形式 "保护 问题 ,而 不 
需要 理解 信息 的 "内容"。 换 言 之 ,采用 密码 学 解决 信息 安全 问题 ,使 没有 得 到 授权 的 人 不 能 
打开 这 个 信封 。 

网 络 信息 内 容 安 全 则 需要 “直接 管理 "信息 内 容 , 对 海量 、 非 结构 化 数据 进行 实时 判断 : 
哪些 是 “好 消息 ”? 哪些 是 “ 坏 消息 ”? 并 尽 可 能 地 完成 对 坏 消息 的 封 堵 和 自动 过 滤 处 理 。 研 
究 信息 内 容 安 全 问题 的 首要 条 件 , 是 必须 由 用 户 明 确定 义 信息 的 “安全 准则 ”, 包 括 : 安全 领 
域 (关注 什么 领域 的 信息 内 容 安 全 问题 ) 和 安全 标准 (什么 是 安全 的 信息 内 容 , 什 么 是 不 安全 
的 信息 内 容 ) ,这 样 才能 据 以 判断 具体 的 信息 是 否 符合 所 定义 的 安全 准则 。 可 见 ,信息 内 容 
安全 问题 是 “面向 特定 领域 "的 ,取决 于 用 当时 的 关注 域 ,而 不 是 “全 方位 的。 

研究 信息 内 容 安全 问题 的 过 程 .是 在 “理解 信息 内 容 ” 基 础 上 的 “三 分 类 ”过 程 。 

(1) 句法 分 析 : 判断 “信息 是 否 为 可 读 语句 ”, 又 称 为 语句 分 类 。 

(2) 主题 分 类 : 判断 “由 可 读 语 句 表达 的 信息 是 否 属于 所 关注 的 安全 领域 ”", 又 称 领域 

(3) 倾向 分 类 : 判断 “ 落 入 某 领域 的 信息 是 否 符合 所 定义 的 安全 准则 ”, 又 称 安全 分 类 。 

这 样 ,网 络 信息 内 容 安 全 问题 就 可 以 归纳 为 "三 分 类 ”问题 ,“ 三 分 类 ”模型 参见 图 1-2。 

3. 学 科 专 业 规范 区 别 

信息 安全 基础 (Information Security Base,ISB) 是 信息 安全 学 科 的 一 些 基 础 内 容 。 信 

















1-2 ”网络 信息 内 容 安 全 “三 分 类 ”模型 


息 安全 基础 知识 领域 由 信息 安全 概念 知识 单元 、 信 息 安全 数学 基础 子 知识 领域 .信息 安全 法 
律 基础 知识 单元 和 信息 安全 管理 基础 知识 单元 四 个 部 分 组 成 。 而 信息 安全 数学 基础 子 知 识 
领域 又 由 数论 .代数 结构 .计算 复杂 性 、 逻 辑 学 信息论、 编码 学 和 组 合 数学 七 个 知识 单元 组 
成 ,如 图 1-3 所 示 为 它们 之 间 的 结构 。 

信息 安全 基础 中 的 信息 安全 概念 主要 介绍 对 信息 安全 的 威胁 、 信 息 安 全 的 基本 概念 和 
确保 信息 安全 的 措施 等 基本 知识 。 信 息 安 全 数学 是 信息 安全 学 的 理论 基础 之 一 ,如 数论 、 代 
数 结构 组合 数学 .计算 复杂 性 、 信 息 论 等 是 密码 学 的 基础 ,逻辑 学 是 网 络 协议 安全 的 基础 。 
信息 安全 法 律 基础 介绍 信息 安全 领域 中 的 一 些 基本 管理 知识 。 信 息 安 全 法 律 和 信息 安全 管 
理 知 识 则 是 对 整个 信息 安全 系统 的 设计 、 实 现 与 应 用 都 有 指导 性 作用 的 。 




















信息 安全 基础 知识 领域 















































图 1-3 信息 安全 基础 知识 领域 结构 


网 络 信息 内 容 安全 旨 在 分 析 识 别 信息 内 容 是 否 合法 。 确 保 合法 内 容 的 安全 ,防止 非法 
内 容 的 传播 和 利用 。 网 络 信息 内 容 安全 的 知识 单元 包括 : 网 络 信息 内 容 安全 的 概念 、 网 络 
数据 的 获取 、 信 息 内 容 的 分 析 与 识别 以 及 信息 内 容 的 管控 等 。 因 为 不 再 单独 设立 信息 内 
容 安全 法 律 法 规 课程 ,所 以 在 安全 概念 中 还 包含 了 少量 与 信息 内 容 安全 相关 的 法 律 法 规 
内 容 。 

网 络 信息 内 容 安全 的 重点 是 网 络 数据 的 获取 、 信 息 内 容 的 预 处 理 与 过 滤 以 及 网 络 信息 
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内 容 的 分 析 与 管控 。 网 络 数据 的 获取 包括 网 络 数据 获取 的 概念 、 网 络 数据 的 被 动 获取 技术 、 
网 络 数据 的 主动 获取 技术 。 学 习 目标 : 掌握 网 络 数据 获取 的 概念 ; 掌握 常用 的 网 络 数 据 被 
动 获取 技术 ; 熟悉 常用 的 网 络 数据 主动 获取 技术 ; 了 解 网 络 数据 获取 技术 的 应 用 。 网 络 信 
息 内 容 的 预 处 理 与 过 滤 包 括 信息 内 容 预 处 理 技术 和 信息 内 容 过 滤 技 术 。 学 习 目标 : 掌握 信 
息 内 容 预 处 理 的 概念 和 一 般 流程 ,掌握 预 处 理 技术 中 需要 用 到 的 语义 特征 抽取 、 特 征 子 集 选 
择 、 特 征 重 构 和 向 量 生成 等 技术 ; 掌握 信息 内 容 常 用 过 滤 方 法 ,内 容 过 滤 的 一 般 模 型 ;， 了 解 
信息 内 容 识 别 和 过 滤 技 术 的 典型 应 用 。 网 络 信息 内 容 的 分 析 与 管控 包括 话题 的 跟踪 与 检测 
技术 、 社 会 网 络 分 析 技 术 、 网 络 与 情 分 析 技 术 、 开 源 情 报 分 析 技 术 。 学 习 目 标 : 掌握 话题 检 
测 与 跟踪 的 概念 ; 话题 检测 与 检测 的 一 般 系统 模型 及 效果 评价 方法 ; 掌握 社会 网 络 分 析 概 
念 ; 掌握 社会 网 络 发 现 及 节点 地 位 评估 技术 ; 掌握 网 络 和 与 情 分 析 的 一 般 系 统 框架 及 常用 方 
法 ,了 解 网 络 与 情 分 析 的 典型 应 用 ; 掌握 网 络 开 源 情报 分 析 的 概念 ; 掌握 网 络 开源 情报 分 
析 的 系统 框架 及 大 数据 分 析 方法 和 常用 指标 。 


1.3 主流 网 络 信息 安全 产品 简介 


由 于 网 络 信息 内 容 安全 研究 中 有 部 分 会 涉及 国家 安全 等 敏感 问题 ,因而 相关 资料 较 难 
获取 ,下 面 对 作 者 收集 到 的 典型 项 目 及 产品 进行 介绍 。 


1.3.1 政府 部 门 主导 的 项 目 


随 着 互联 网 应 用 的 日 益 广泛 ,网 上 信息 安全 问题 也 逐渐 突出 ,各 国政 府 均 先后 提高 了 对 
信息 内 容 安全 问题 的 重视 程度 。 

在 "9。11” 鸭 怖 袭击 事件 发 生 后 ,FBI 局 长 Robert S. Mueller 在 议会 听证 会 上 发 言 , 认 
为 政府 花费 了 过 多 的 精力 用 于 案件 侦查 ,以 致 没有 足够 的 资源 用 于 预防 案件 发 生 。Robert 
认为 ,这 是 由 于 他 们 虽然 获得 了 大 量 数据 ,但 对 数据 进行 整合 与 深度 分 析 不 足 。 此 后 ,FBI 
加 大 了 对 一 些 领 域 的 研究 力度 ,包括 整合 不 同 来 源 \ 不 同 格式 数据 的 技术 ,对 犯罪 及 铠 怖 活 
动 相关 网 络 链接 进行 分 析 与 可 视 化 显示 的 技术 .能 够 对 信息 进行 监控 、 检 索 、 分 析 及 作出 主 
动 响应 的 agent 技术 ,对 海量 信息 (TeraBytes) 级 别 存储 文档 、 网 页 和 电子 邮件 的 文本 挖掘 
技术 ,利用 神经 网 络 对 可 能 的 犯罪 活动 或 者 新 的 鸭 居 袭击 进行 预测 的 技术 ,利用 机 器 学 习 算 
法 抽取 罪犯 描述 特征 与 犯罪 活动 关系 的 结构 图 技术 等 。 

可 见 , 信 息 内 容 安全 影响 的 范围 并 不 仅仅 局 限于 虚拟 网 络 ,而 是 与 其 他 方面 的 安全 问题 
密切 联系 、 相 互 影 响 。 政 府 主导 的 部 分 代表 性 项 目 见 表 1-3。 

表 1-3 政府 主导 项 目 

国 别 | 单位 | 项 目 名 称 简 介 








网 络 信息 嗅 探 软件 与 相关 软件 配合 ,可 实现 信息 还 原 和 内 容 分 析 , 主 要 用 
美国 | FBI Carnivore | 于 监测 互联 网 中 的 恐怖 活动 、 儿 童 色 情 、 间 谍 活 动 、 信 息 战 和 网 络 欺诈 行 
为 等 。 运 行 于 微软 Windows 平台 ,2005 年 1 月 以 后 停止 








国 别 


单位 


项 目 名 称 


续 表 
简 介 





FBI 


StrikeBack 


与 联邦 教育 部 合作 ,用 于 查询 可 疑 学 生 信 息 , 每 年 有 数 百名 学 生 信息 被 查 
询 ,5 年 期 计划 ,已 结束 








多 国 |UKUSA 


ECHELON 


以 美英 为 主导 ,由 多 个 英语 国家 参与 。 是 世界 上 最 大 的 网 络 通信 数据 监 
听 与 分 析 系 统 。 监 听 世 界 范 围 内 的 无 线 电 波 、 卫 星 通信 电话、 传真 .电子 
邮件 等 信息 后 ,应 用 计算 机 技术 进行 自动 分 析 。 每 天 截获 的 信息 量 约 30 
亿 条 。 最 初 ECHELON 用 于 监控 苏联 和 东欧 的 军事 与 外 交 活 动 。 现 在 
其 重点 监听 丽 怖 活动 和 毒品 交易 的 相关 








美国 


RIP 


关于 通信 监听 方面 的 法 律 于 2000 年 通过 。 该 国政 府 被 授权 监控 所 有 电 
子 邮件 通信 ,包括 加 密 通 信 





美国 


CIA 


Oasis 


以 语音 识别 技术 为 核心 ,用 于 将 电话 .电视 .广播 ,网络 上 的 音频 信息 转换 
为 文本 信息 ,以 便于 检索 。 目 前 ,Oasis 系统 可 以 识别 英语 ,下 一 步 的 目标 
是 实现 对 阿拉 伯 语 和 汉语 的 处 理 





美国 |DARPA 


EELD 


研究 如 何 从 海量 的 网 络 信息 中 ,发 现 有 可 能 威胁 国家 安全 的 关键 信息 提 
取 技 术 





美国 


lx32 





DHS 


ADVISE 





建立 在 前 述 ECHELON 项 目的 基础 上 ,通过 数据 挖掘 技术 对 互联 网 上 的 
新 闻 网 站 、 博 客 (Blog) .电子 邮件 (E-mail) 进 行 分 析 , 以 发 现 其 中 各 种 网 络 
标示 之 间 的 关系 。 该 计划 目的 在 于 尽早 发 现 念 怖 分 子 可 能 发 动 的 妨 怖 活 
动 。 数 据 的 三 维 可 视 化 展示 是 该 项 目的 一 个 特点 , 它 提供 了 一 种 新 型 的 
数据 展示 方式 





科研 院 所 或 企业 的 项 目 与 产品 


由 科研 机 构 主 导 的 部 分 研究 项 目 见 表 1-4。 


表 1-4 研究 机 构 主导 的 研究 项 目 
简 介 





该 项 目 需 防止 多 台 服务 器 到 网 络 各 处 收集 网 络 上 的 特定 信息 后 传 回信 息 处 
理 中 心 ,减轻 了 将 所 有 信息 直接 传 回信 息 处 理 中心 的 负担 。 项 目 特点 在 于 ， 
虽然 这 些 放 在 信息 源 附近 的 机 器 没有 集中 式 服 务 器 的 物理 性 和 系统 安全 
性 ,甚至 有 可 能 为 敌对 方 获取 ,但 该 系统 会 利用 同 态 加 密 (Homomorphic 
Encryption) 实 现 编码 混淆 (Code Obfuscation) 。 该 技术 保证 了 机 器 上 安装 
的 软件 不 会 被 逆向 工程 侵犯 ,也 即 敌 对 方 无 法 利用 缴获 的 服务 器 来 获取 该 
服务 器 过 滤 的 明确 规划 。 另 外 ,由 于 预先 滤 除 了 大 量 信息 ,系统 在 安全 和 隐 
私 方面 也 取得 了 较 好 均衡 http://www. research. ucla. edu/tech/ucla05- 
487. htm 





Autonomy 公司 的 产品 IDOL Server 是 用 途 广泛 的 文本 信息 挖掘 工具 ,具有 
能 进行 语义 级 别 的 检索 .文本 分 类 与 推送 等 功能 。 支 持 多 种 自然 语言 ,利用 
信息 论 的 相关 知识 进行 文本 特征 选择 与 提取 ,利用 贝 叶 斯 理论 进行 分 类 。 
在 FBI 与 CIA 中 有 广泛 应 用 http://www. autonomy. cny content/ Products/ 
IDOLVindex. en. html 





单 位 | 项 目 名称 
Private 
Keyword 
UCLA Search on 
Streaming 
Data 
IDOL 
Autonomy 
Server 
Secure 
SmartFilter 
Computing 








用 于 组 织 网 络 间谍 软件 与 网 络 钓鱼 软件 对 网 络 用 户 的 侵害 。 在 军事 .民事 
领域 都 有 应 用 
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续 表 
单 位 | 项 目 名 称 简 介 
澳大利亚 国家 信息 与 通信 技术 研究 中 心 的 紧急 状态 灵活 应 对 系统 计划 ,该 
NICTA SAFE 项 目 通过 人 脸 识 别 等 机 器 视觉 技术 来 分 析 可 能 的 异常 行为 ,从 而 实现 预先 
判断 ,以 阻止 恶 怖 主义 活动 
Sorting 该 项 目 由 美国 国土 安全 部 资助 , 康 奈 尔 大 学 联合 匹兹堡 大 学 和 犹他 大 学 负 


Acts and 责 实施 。 重 点 是 通过 信息 抽取 等 多 种 自然 语言 理解 与 机 器 学 习 技 术 , 从 收 
Cornell Opinions 集 到 的 文本 中 判断 各 种 信息 所 包含 的 观点 ,并 且 研 究 如 何 寻找 信息 的 可 能 
for Homeland| 来 源 ,利用 这 些 信息 进行 辅助 决策 http://www. eurekalert org/pub_ 
Security releases/2006-09/cuns-sfa092206. php 








1.4 网 络 信息 内 容 安 全 研究 的 意义 


在 信息 化 社会 的 建设 过 程 中 ,网 络 信息 内 容 安全 研究 有 着 广泛 的 应 用 。 根 据 考查 层次 
对 象 不 同 , 可 分 为 如 下 几 个 方面 。 

(1) 提高 网 络 用 户 及 网 站 的 使 用 效率 。 网 络 用 户 经 常 遇 到 垃圾 邮件 ,流氓 软件 等 恶意 
干扰 ,网 站 上 也 存在 某 些 用 户 发 布 一 些 广告 或 恶意 言论 的 情况 。 信 息 内 容 安全 研究 有 望 提 
供 技术 上 的 解决 方案 ,包括 对 电子 邮件 .论坛 ,Blog 回复 和 聊天 室 等 进行 信息 过 滤 ,通过 预 
先 过 滤 不 良 信息 ,减少 手工 处 理 各 类 无 用 信息 所 花费 的 时 间 与 精力 ,从 而 有 效 提高 网 络 的 使 
用 效率 。 

(2) 净化 网 络 空 间 。 互 联网 的 迅猛 发 展 , 既 满 足 了 广大 群众 日 益 丰 富 的 文化 生活 需求 ， 
成 为 人 们 获取 信息 、 生 活 娱乐 互动 交流 的 新 兴 媒 体 ,同时 也 存在 传播 各 种 不 良 信息 的 现象 。 
例如 ,传播 格调 低下 的 文字 与 图 片 ,侵犯 知识 产权 的 盗版 影音 或 软件 ,不 负责 任 的 传播 未 证 
实 的 消息 ,甚至 别有用心 地 散布 虚假 消息 以 制造 恐慌 气氛 等 。 此 外 , 随 着 网 络 的 发 展 , 上 网 
的 未 成 年 人 也 越 来 越 多 ,只 有 营造 健康 文明 的 网 络 文化 环境 , 才 有 利于 青少年 的 身心 健康 与 
顺利 成 长 。 消 除 不 健康 信息 已 成 为 社会 的 共同 呼唤 和 强烈 需求 ,也 对 网 络 信息 内 容 安全 相 
关 课 题 的 研究 提出 了 迫切 要 求 。 

从 建设 国家 信息 安全 保障 体系 的 角度 看 , 随 着 时 代 的 发 展 ,安全 问题 也 拓展 到 网 络 这 个 
看 不 见 、 摸 不 着 的 虚拟 世界 ,提高 国家 信息 安全 保障 水 平 是 保障 国家 安全 的 重要 环节 。 互 联 
网 作为 信息 传播 和 知识 扩散 的 新 式 载 体 , 加 剧 了 各 种 思想 文化 的 激荡 与 碰撞 。 各 种 观点 与 
宣传 在 互联 网 上 长 期 互 存 . 互 相 影响 ,这 是 一 个 客观 现实 。 各 种 违法 犯罪 活动 也 利用 网 络 作 
为 传播 的 新 场所 ,出 现 了 各 种 网 络 诈骗 活动 与 网 络 念 怖 主义 活动 。 上 述 种 种 情况 ,都 需要 更 
为 完善 的 信息 处 理 技术 ,尽早 或 尽量 准确 地 发 现 安全 隐患 ,以 提高 预防 保护 能 力 ,降低 各 种 
不 良 活动 发 生 的 可 能 性 ,减少 其 带 来 的 损失 。 
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1.5 网 络 信息 内 容 安全 的 未 来 及 发 展 趋势 


随 着 Web 2. 0 应 用 的 普及 ,互联 网 将 面临 更 多 、 更 复杂 的 内 容 安 全 威胁 ,而 另 一 方面 ， 
随 着 大 数据 及 云 计算 技术 的 飞速 发 展 ,网 络 信 息 内 容 安 全 在 未 来 仍然 具有 进一步 拓展 的 空 
间 , 以 下 问题 值得 关注 。 

1. 网 络 信息 内 容 可 信和 性 

关于 大 数据 环境 下 网 络 信息 内 容 研究 的 一 个 普遍 的 观点 是 ,数据 自己 可 以 说 明 一 切 , 数 
据 自身 就 是 事实 。 但 实际 情况 是 ,如 果 不 仔细 甄别 ,数据 也 会 欺骗 ,就 像 人 们 有 时 会 被 自己 
的 双眼 欺骗 一 样 。 大 数据 可 信 性 的 威胁 之 一 ,是 伪造 或 刻意 制造 的 数据 ,而 错误 的 数据 往往 
会 导致 错误 的 结论 。 若 数据 应 用 场景 明确 ,就 可 能 有 人 刻意 制造 数据 ,营造 某 种 “假象 ", 诱 
导 分 析 者 得 出 对 其 有 利 的 结论 。 由 于 虚假 信息 往往 隐藏 于 大 量 信息 中 ,使 得 人 们 无 法 鉴别 
真 伪 ,从 而 作出 错误 判断 。 例 如 ,一 些 点 评 网 站 上 的 虚假 评论 混杂 在 真实 评论 中 ,使 得 用 户 
无 法 分 辨 ,可 能 误导 用 户 去 选择 某 些 劣质 商品 或 服务 。 由 于 当前 网 络 社区 中 虚假 信息 的 产 
生 和 传播 变 得 越 来 越 容易 ,其 所 产生 的 影响 不 可 低估 。 用 传统 信息 安全 技术 手段 鉴别 所 有 
来 源 的 真实 性 是 不 可 能 的 。 大 数据 可 信 性 的 威胁 之 二 ,是 数据 在 传播 中 的 逐步 失真 。 原 因 
之 一 是 人 工 干预 的 数据 采集 过 程 可 能 引入 误差 ,由 于 失误 导致 数据 失真 与 偏差 ,最 终 影响 数 
据 分 析 结 果 的 准确 性 。 此 外 ,数据 失真 还 有 数据 版 本 变更 的 因素 。 在 传播 过 程 中 ,现实 情况 
发 生 了 变化 ,早期 采集 的 数据 已 经 不 能 反映 真实 情况 。 例 如 ,和 餐馆 电话 号 码 已 经 变更 ,但 早 
期 的 信息 已 经 被 其 他 搜索 引擎 应 用 或 收录 ,所 以 用 户 可 能 看 到 矛盾 的 信息 而 影响 其 判断 。 
因此 ,大 数据 的 使 用 者 应 该 有 能 力 基于 数据 来 源 的 真实 性 数据 传播 途径 ,数据 加 工 处 理 过 
程 等 ,了 解 各 项 数据 可 信 度 ,防止 分 析 得 出 无 意义 或 者 错误 的 结果 。 

2. 数据 水 印 技术 

数字 水 印 是 指 将 标识 信息 以 难以 察觉 的 方式 嵌入 在 数据 载体 内 部 且 不 影响 其 使 用 的 方 
法 ,多 见于 多 媒体 数据 版 权 保护 ,也 有 部 分 针对 数据 库 和 文本 文件 的 水 印 方案 。 由 数据 的 无 
序 性 、 动 态 性 等 特点 所 决定 ,在 网 络 信息 内 容 中 添加 水 印 的 方法 与 多 媒体 载体 上 有 很 大 不 
同 。 其 基本 前 提 是 上 述 数 据 中 存在 元 余 信息 或 可 容忍 一 定 精度 误差 。 基 本 思路 大 都 基于 数 
据 库 中 数值 型 数据 存在 误差 容忍 范围 ,将 少量 水 印信 息 嵌 入 到 这 些 数 据 中 随机 选取 的 最 不 
重要 的 位 置 上 。 水 印 的 生成 方法 种 类 很 多 ,可 大 致 分 为 基于 文档 结构 微调 的 水 印 (依赖 字符 
间距 与 行 间距 等 格式 上 的 微小 差异 )、 基 于 文本 内 容 的 水 印 (依赖 于 修改 文档 内 容 , 如 增加 空 
格 .修改 标点 等 ) 以 及 基于 自然 语言 的 水 印 (通过 理解 语义 实现 变化 ,如 同义词 替换 或 句 式 变 
化 等 )。 上 述 水 印 方案 中 有 些 可 用 于 部 分 数据 的 验证 ,例如 残余 元 组 数量 达到 阔 值 就 可 以 成 
功 验证 出 水 印 。 该 特性 在 大 数据 应 用 场景 下 具有 广阔 的 发 展 前 景 ,例如 ,强健 水 印 类 可 用 于 
大 数据 的 起 源 证 明 ,而 脆弱 水 印 类 可 用 于 大 数据 的 真实 性 证 明 。 存 在 的 问题 之 一 是 当前 的 
方案 多 基于 静态 数据 集 , 针 对 大 数据 的 高 速 产生 与 更 新 的 特性 考虑 不 足 , 这 是 未 来 亟待 提高 
的 方向 。 





12 网 络 信息 内 容 安 全 





3. 基于 大 数据 的 网 络 信息 真实 性 分 析 

目前 ,基于 大 数据 的 网 络 信息 真实 性 分 析 被 广泛 认为 是 最 为 有 效 的 方法 。 许 多 企业 已 
经 开始 了 这 方面 的 研究 工作 ,例如 Yahoo 和 Thinkmail 等 利用 大 数据 分 析 技 术 来 过 滤 垃 圾 
邮件 ; Yelp 等 社交 点 评 网 络 用 大 数据 分 析 来 识别 虚假 评论 ; 新 浪 微 博 等 社交 媒体 利用 大 数 
据 分 析 来 鉴别 各 类 垃圾 信息 等 。 基 于 大 数据 的 数据 真实 性 分 析 技 术 能 够 提高 垃圾 信息 的 鉴 
别 能 力 。 一 方面 ,引入 大 数据 分 析 可 以 获得 更 高 的 识别 准确 率 。 例 如 ,对 于 点 评 网 站 的 虚 
假 评论 ,可 以 通过 收集 评论 者 的 大 量 位 置信 息 、 评 论 内 容 、 评 论 时 间 等 进行 分 析 , 鉴别 其 
评论 的 可 靠 性 ,如 果 某 评论 者 为 某 品 牌 多 个 同类 产品 都 发 表 了 恶意 评论 , 则 其 评论 的 真 
实 性 就 值得 怀疑 。 另 一 方面 ,在 进行 大 数据 分 析 时 ,通过 机 器 学 习 技术 ,可 以 发 现 更 多 具 
有 新 特征 的 垃圾 信息 ,该 技术 仍然 面临 一 些 困难 ,主要 在 于 虚假 信息 的 定义 、 分 析 模 型 的 
构建 。 

4。 移动 互联 网 信息 内 容 安全 


手机 终端 智能 化 或 者 移动 互联 网 化 以 后 ,为 人 们 所 有 的 硬件 带 来 了 新 的 生机 。 但 在 移 
动 生活 到 来 的 同时 ,移动 互联 网 信息 内 容 安全 也 会 变 得 越 来 越 重 要 。 未 来 ,只 有 利用 大 数据 
才能 实现 互联 网 的 安全 创新 。 从 目前 移动 互联 网 的 安全 现状 来 说 ,移动 互联 网 网 络 犯罪 已 
经 不 像 十 几 年 前 那样 黑客 只 是 “ 秀 能 力 "那么 简单 ,移动 终端 安全 将 会 变 得 越 来 越 重要 。 一 
方面 ,未 来 应 利用 大 数据 和 云 查 杀 技术 ,实时 在 云 服 务 器 端 作出 行为 判断 ,来 保障 移动 终端 
的 安全 。 另 一 方面 :应 研究 如 何 挖掘 移动 终端 发 布 的 海量 短文 本 信息 。 在 用 户 创 造 数据 的 
时 代 , 用 户 越 来 越 倾 向 于 大 量 的 发 布 短文 本 信息 ,最 典型 的 手段 是 通过 微 博客 。 短 文本 信 
息 一 方面 有 着 清晰 的 突出 主题 ,突出 观点 ,但 另 一 方面 也 容易 断章取义 ,造成 误 传 或 谣 
传 , 极 大 地 威胁 网 络 内 容 安全 ,如 何 借 助 大 技术 分 析 手 段 从 中 挖掘 有 价值 的 信息 ,也 是 一 
大 挑战 。 


1.6 本 章 小 结 


互联 网 已 经 成 为 人 们 获取 信息 、 相 互 交流 ,协同 工作 的 重要 途径 ,但 另 一 方面 互联 网 也 
带 来 一 些 负面 影响 ,如 色情 、 反 动 等 不 良 信息 在 网 络 中 大 肆 传 播 ,垃圾 邮件 .广告 等 恶意 营销 
行为 泛滥 ,网 络 欺诈 .钓鱼 以 及 网 络 暴力 、 网 络 疏 怖 主义 等 恶意 行为 层出不穷 。 这 些 恶 意 信 
息 和 行为 完全 背离 了 互联 网 的 设计 初衷 ,也 不 符合 广大 网 民 的 意愿 ,并 且 影响 到 了 正常 秩序 
和 规范 。 因 此 研究 网 络 信息 内 容 安全 ,提供 对 互联 网 中 各 种 不 利信 息 的 检测 分 析 能 力 ,是 体 
现 我 国信 息 技术 水 平 的 重要 环节 ,也 是 建设 信息 化 社会 的 坚实 保障 。 

网 络 信息 内 容 安全 作为 信息 安全 领域 的 一 个 研究 分 支 ,是 对 上 述 问题 的 解决 方案 , 它 跨 
越 多 媒体 信息 处 理 数 据 分 析 、 计 算 机 网 络 、 网 络 应 用 等 多 个 研究 领域 。 通 过 学 习 本 章 的 内 
容 , 为 后 续 章 节 的 学 习 葛 定 扎 实 基础 。 
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习题 


. 网络 信 息 内 容 安全 的 主要 技术 有 哪些 ? 

网 络 信息 内 容 安全 要 求 有 哪些 ? 

网 络 信息 内 容 安全 威胁 包括 什么 ? 

. 你 在 生活 中 章 遇 过 哪些 网 络 诈骗 或 互联 网 诈骗 ? 

. 你 认为 有 哪些 方法 (包括 技术 、 管 理 等 多 个 方面 ) ,可 以 更 好 地 保障 网 络 信息 内 容 的 


am 上 oo 


安全 ? 


第 2 章 网 络 信息 的 获取 


2.1 互联 网 信息 分 类 


受益 于 国际 互联 网 基础 设施 建设 的 长 足 发 展 ,当前 基于 互联 网 实现 信息 传播 这 一 网 络 
应 用 已 经 相当 普及 。 据 2016 年 1 月 的 (中 国 互联 网 网 络 发 展 状况 统计 报告 ) 显 示 , 截 至 
2015 年 12 月 ,中 国 国家 项 级 域名 “. CN” 总 数 为 1636 万 ,年 增长 为 47.6%, 占 中 国 域名 总 数 
的 52.8%,“. CN” 域 名 已 超过 德国 国家 顶级 域名 *“. DE”, 成 为 全 球 注册 保有 量 第 一 的 国家 和 
地 区 顶级 域名 (ccTLD)。 同 时 ,为 满足 活跃 的 国际 互联 网 交流 需求 ,2015 年 年 度 国际 出 口 
带宽 创新 高 。 截 至 2015 年 12 月, 中国 国际 出 口 带宽 为 5392116 Mbps, 年 增长 30.9%, 标 志 
着 中 国 国际 通信 网 络 能 力 的 显著 提升 。 同 时 ,中 国 网 页 数量 首次 突破 2000 亿 。 中 国企 业 越 
来 越 多 地 使 用 互联 网 工具 开展 交流 沟通 \ 信 息 获 取 与 发 布 . 内 部 管理 等 方面 的 工作 ,为 企业 
“互联 网 十 ”应 用 葛 定 了 良好 基础 。 

容纳 着 数 以 万 TB 的 信息 总 量 , 并 且 正 处 于 内 容 爆 炸 性 增长 的 国际 互联 网 ,包含 了 各 式 
各 样 ,内 容 胃 异 的 信息 。 从 宏观 角度 上 来 讲 , 互 联网 公开 传播 信息 基本 可 以 分 为 网 络 媒体 信 
息 与 网 络 通信 信息 两 大 类 型 。 其 中 网 络 媒体 信息 是 本 书 重点 要 分 析 的 内 容 。 


2.1.1 网 络 媒体 信息 


网 络 媒体 信息 是 指 传统 意义 上 的 互联 网 网 站 的 公开 发 布 信息 ,网 络 用 户 通常 可 以 基于 
通用 网 络 浏览 器 (例如 Microsoft 公司 的 Internet Explorer、Netscape 公司 的 Navigator、 
Mozilla 公司 的 Mozilla Firefox) 获 得 互联 网 公开 发 布 的 信息 。 由 于 本 书 针 对 这 类 信息 用 于 
统一 的 信息 获取 方法 ,因此 将 其 统称 为 网 络 媒体 信息 。 宏 观 意 义 上 的 网 络 媒体 信息 涉及 较 
广 , 可 以 通过 网 络 媒体 形态 ,发布 信 息 类 型 媒体 发 布 方式 、 网 页 具体 形态 与 信息 交互 协议 等 
多 种 划分 方法 进一步 细 分 与 区 别 , 主 要 包括 以 下 几 种 。 

1. 网 络 媒体 形态 

根据 网 络 媒体 具体 形态 的 不 同 . 网 络 媒体 可 以 分 为 广播 式 媒体 与 交互 式 媒体 两 类 。 其 
中 ,传统 的 广播 式 主要 包含 新 闻 网 站 .论坛 (BBS) ,博客 (Blog) 等 形态 ; 新 兴 的 交互 式 媒体 
涵盖 搜索 引擎 ,多 媒体 ( 视 / 音 频 ) 点 播 `. 网 上 交友 .网 上 招聘 与 电子 商务 (网 络 购物 ) 等 形态 。 
每 种 形态 的 网 络 媒体 都 以 各 自 的 方式 向 互联 网 用 户 推 送 其 公开 发 布 信息 。 

2. 发 布 信息 类 型 

从 公开 发 布 信息 的 具体 类 型 上 看 ,网 络 媒体 信息 可 以 细 分 为 文本 信息 .图像 信 息 、 音 频 
信息 与 视频 信息 4 种 类 型 。 其 中 ,网 络 文本 信息 始终 是 网 络 媒体 信息 中 占 比 最 大 的 信息 
类 型 。 
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3. 媒体 发 布 方式 

按照 网 络 媒体 所 选择 信息 发 布 方式 的 不 同 ,网 络 媒体 信息 还 可 以 分 成 可 直接 匿名 浏览 
的 公开 发 布 信息 ,以 及 需要 实现 身份 认证 才 可 以 进一步 点 击 阅读 的 网 络 媒体 发 布 信息 。 

4 网 页 具体 形态 

《中 国 互联 网 网 络 发 展 状况 统计 报告 ) 根 据 超 链接 网 络 地 址 (统一 资源 定位 符 ,URL) 的 
组 成 ,将 网 页 分 成 URL 中 不 含 “?” 或 输入 参数 的 静态 网 页 ,以 及 URL 中 合 “?” 或 输入 参数 
的 动态 网 页 两 类 。 针 对 网 页 内 容 的 具体 构成 形态 ,还 可 以 对 网 络 媒体 信息 中 的 静态 网 页 与 
动态 网 页 进行 更 加 明确 地 区 分 。 

网 页 主体 内 容 以 文本 形式 、 网 页 内 和 髓 链接 信息 以 超 链接 网 络 地 址 格式 存在 于 网 页 源 文 
件 中 的 网 页 属于 静态 网 页 ,如 图 2-1 所 示 。 网 页 主体 内 容 或 网 页 内 嵌 链 接 信息 完全 封装 于 
网 页 源 文件 中 的 脚本 语言 片段 内 的 网 页 属于 动态 网 页 ,如 图 2-2 所 示 。 


<html> 
<head> 

<tltie> 文 字 滚动 的 设置 </title> 

</head> 

<body> 

<font size="5" color="scc0000"> 

文字 案 动 示例 默认 ) : <marquee> 信 人 要 厚道 </marquee> 
</font> 

</body> 

</html> 








2-1 静态 网 页 实例 


史上 最 美国 产 SUY 仅 9. 88 万 哈弗 H9 国 内 首 撞 

* 赴 克 萨 煌 新 车 油耗 超 低 日 产 个 性 SUY 设 计 非常 守 张 

”1. 21 赴 铁 龙 sUI 蚂 气 十 足 大 空间 家 用 车 上 市 3.99 万 起 

， 深 港澳 车 展 : 气派 IPY 仅 13.95 万 沃尔沃 新 车 22. 99 万 

， 上 汽 大 众 逻 昂 预 售 35. 9 万 起 进口 大 众 ? 座 车 26.96 万 起 
，Jeep 施 舰 S0Y 配 置 升级 为 什么 只 有 两 月 车 有 后 雨刷 ? 


美 刊 。 共 英文 莫 慌 看 这 里 大 陆 打 不 出 155 发 导弹 
中 国 未 来 战略 核潜艇 还 要 " 印 背 "? 
奥巴马 再 促 国会 通过 海洋 ; 
大 国 交 好 或 交恶 亚洲 小 | 
上 将 : 参加 “ 香 会 ” 服 理 不 服 符 
中 越 军 方 : 共同 努力 管控 南海 分 层 





，” 阵 光标 起 低调 座驾 散热 最 快 开 主 方式 pox 人 做 错 了 

* 降价 : 宝马 z4 西 安 降 1. 2 万 嘉年华 降 1.8 万 奔驰 5 级 降 ? 万 
* 起 亚 智 跑 降 2. 5 万 凌 派 西安 优惠 :万 弃 腾 B30 优惠 0.6 万 

* 马自达 6 西安 降 1.8 万 林肯 WEc 优 惠 2 万 高 尔 夫 优 惠 1.6 万 
“本 周 降价 车 型 ToP8 最 高 降 15. 1 万 20 万 内 自主 品牌 车 型 
* 西安 一 汽 丰田 RAY4/ 卡 罗拉 团购 凤凰 网 间 良 汽车 交易 会 

* 一汽 丰田 全 系 昆明 团购 大 促 自主 ty 要 陷入 危机 了 吗 


”毛泽东 曾 称 糙 哪 位 中 共 高 层 是 “一 辈子 做 好 事 ”? 

”彭德怀 理财 天 分 : 被 认为 着 受 教育 可 以 成 为 经 济 学 博士 
* 为 何 与 西南 联 大 相 比 西北 联 大 的 名 声 不 为 多 数 人 所 知 ? 
* 电视剧 中 国民 党 称呼 哪个 是 让? 局 座 师 座 并 不 常用 

* 哪 次 看 病 给 毛泽东 留 下 深刻 印象 在 重要 讲话 中 提 及 ? 
* 祈 终 被 传 雷 称 车 伙 译 水 平 谦 寺 一句 为 何 令 傅 雷 发 火 ? 
， 知 青 忆 惊 险 一 幕 : 因 将 拖拉 机 挂 错 档 顺 陡坡 飞驰 而 下 


2-2 动态 网 页 实例 


从 网 页 内 容 的 构成 形态 不 难 发 现 , 动 态 网 页 与 静态 网 页 不 同 , 它 是 使 用 传统 的 基于 
HTML 标记 匹配 的 网 页 解析 方法 提取 网 页 主体 内 容 以 及 网 页 内 艇 链接 所 对 应 的 网 络 超 链 
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接地 址 。 

5. 信息 交互 协议 

按照 所 使 用 的 信息 交互 协议 的 不 同 ,网 络 媒 体 信息 可 以 分 为 HTTP(S) 信 息 、.FTP 信 
息 .MMS 信息 .RTSP 信息 及 已 经 不 多 见 的 Gopher 信息 等 。 其 中 , MMS 信息 与 RTSP 信 
息 属于 视 / 音 频 点 播 协 议 , 当 互联 网 用 户 通过 网 络 浏览 器 点 击 MMS 或 RTSP 协议 信息 时 ， 
浏览 器 会 通过 操作 系统 调用 该 协议 解析 所 对 应 的 默认 应 用 程序 ,实现 互联 网 用 户 请 求 的 视 / 
音频 片段 播放 。 


2.1.2 网 络 通信 信息 


网 络 通 信 信 息 一 般 指 互 联网 用 户 使 用 除 网 络 浏览 器 以 外 的 专用 客户 端 软件 ,实现 与 特 
定点 的 通信 或 进行 点 对 点 通信 时 所 交互 的 信息 。 常 见 的 网 络 通信 信息 包括 使 用 电子 邮件 客 
户 端 收发 信件 时 通过 网 络 传输 的 信息 ,以 及 使 用 即时 聊天 工具 进行 点 对 点 交流 时 所 传输 的 
网 络 信息 。 鉴 于 网 络 通信 信息 在 一 定 程度 上 并 不 属于 网 络 公 开发 布 信息 ,本 章 将 只 对 这 类 
信息 的 获取 原理 与 获取 方法 进行 简要 探讨 。 





2.2 网 络 媒体 信息 的 获取 


与 面向 特定 点 的 网 络 通信 信息 的 获取 范围 不 同 , 网 络 媒体 信息 的 获取 范围 在 理论 上 可 
以 是 整个 国际 互联 网 ,传统 的 网 络 媒体 信息 的 获取 从 预先 设 定 的 ,包含 一 定数 量 URL 的 初 
始 网 络 地 址 集合 出 发 ,获取 初始 集合 中 每 个 网 络 地 址 所 对 应 的 发 布 内 容 。 而 网 络 媒体 信息 
的 获取 ,一 方面 将 初始 网 络 地 址 发 布 信息 的 主体 内 容 按照 系列 内 容 判 重 机 制 有 选择 地 存 人 
互联 网 信息 库 , 另 一 方面 进一步 提取 已 获取 信息 内 嵌 的 超 链接 网 络 地 址 ,并 将 所 有 超 链 接 网 
络 地 址 置信 待 获取 地 址 队列 ,以 * 先 人 先 出 ?方式 逐一 提取 队列 中 每 一 个 网 络 地 址 发 布 的 信 
息 , 网 络 媒体 信息 获取 环节 循环 开展 待 获取 队列 中 的 网 络 地 址 发 布 信息 获取 ,已 获取 信息 主 
体内 容 提 取 、 判 重 与 信息 存储 ,以 及 已 获取 信息 内 内 网 络 地 址 提取 并 存 人 待 获取 地 址 队列 操 
作 , 直 至 遍布 所 需 的 互联 网 络 范围 。 


2.2.1 网 络 媒体 信息 获取 的 一 般 流程 


理想 的 网 络 媒体 信息 获取 流程 主要 由 初始 URL 集合 一 一 信息 “种 子 ” 集 合 、 等 待 获取 
的 URL 队列、 信息 获 取 模 块 、 信 息 解 析 模 块 、 信 息 判 重 模块 与 互联 网 信息 库 共同 组 成 ,如 
图 2-3 所 示 。 

1. 初始 URL 集合 

初始 URL 集合 概念 最 初 由 搜索 引擎 研究 人 员 提 出 ,商用 搜索 引擎 为 了 使 自身 拥有 的 
信息 充分 覆盖 整个 国际 互联 网 ,需要 维护 包含 相当 数量 网 络 地 址 的 初始 URL 集合 ,搜索 引 
擎 跟随 初始 URL 集合 发 布 页 面 上 的 网 络 链接 进入 第 一 级 网 页 ,并 进一步 跟随 第 一 级 网 页 
内 符 链 接 进入 第 二 级 网 页 ,最 终 形成 周而复始 的 跟随 网 页 内 嵌 地 址 的 递归 操作 ,从 而 完成 所 
有 网 页 发 布 信息 的 获取 工作 。 因 此 .初始 URL 集合 通常 被 形象 地 称 为 信息 “种 子 ”集合 ,如 
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图 2-3 网 络 媒体 信息 获取 的 一 般 流 程 









































图 2-4 所 示 。 
从 理论 上 讲 , 只 要 维护 包含 足够 数量 网 络 地 址 的 初始 URL 集合 ,搜索 引擎 即 可 遍历 整 
个 国际 互联 网 (通常 还 需要 网 站 主动 向 搜索 引擎 提供 网 站 地 图 Sitemap) 。 源 于 搜索 引擎 应 
用 研究 的 网 络 媒体 信息 获取 环节 ,同样 需要 根据 后 续 网 络 媒体 信息 分 析 环 节 所 关注 的 互联 
网 络 范围 ,事先 维护 包含 一 定数 量 网 络 地 址 的 初始 URL 集合 ,作为 信息 获取 操作 的 起 点 。 
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2-4 跟随 网 页 内 媒 链 接 逐 级 递归 遍历 互联 网 络 


2. 信息 获取 

信息 获取 模块 先 根据 来 自 初 始 网 络 地 址 集合 或 URL 队列 中 的 每 条 网 络 地 址 信息 , 确 
定 待 获取 内 容 所 采用 的 信息 发 布 协议 。 在 完成 待 获取 内 容 协 议 解析 操作 后 ,信息 获取 模块 
将 基于 特定 通信 协议 所 定义 的 网 络 交 互 机 制 ,向 信息 发 布 网 站 请 求 所 需 内 容 , 并 接收 来 自 网 
站 的 响应 信息 ,将 它们 传递 给 后 续 的 信息 解析 模块 。 基 于 HTTP 协议 发 布 的 文本 信息 获取 
范例 如 图 2-5 所 示 , 对 于 HTTP 信息 网 络 交 互 过 程 的 细节 可 查阅 协议 规范 Hypertext 
Transfer Protocol-HTTP/1. 1,RFC2616. June1999 。 

在 理论 原理 层面 上 ,立足 于 开放 系统 互联 参考 模型 (OSI/RM) 的 传输 层 ,可 以 通过 重 构 
各 类 通信 协议 (例如 HTTP 和 FTP 等 ) 所 定义 的 网 络 交互 过 程 ,实现 基于 不 同 通信 协议 的 
发 布 内 容 获取 。 随 着 互联 网 中 文本 、 图 像 信息 发 布 形态 的 不 断 推陈出新 (人 机 交互 式 信 息 发 
布 形态 的 出 现 直 接 导 致 文本、 图 像 信息 请 求 网 络 通信 过 程 更 加 复杂 ) , 视 / 音 频 发 布 内 容 的 层 
出 不 穷 ( 视 /音频 信息 网 络 交 互 过 程 重 构 困 难 , 部 分 视 / 音 频 网 络 通信 协议 交互 细节 并 未 公 
开 ) ,纯粹 依赖 于 各 类 协议 的 网 络 通信 交互 过 程 重 构 , 实 现 信息 内 容 获取 的 操作 复杂 度 和 网 
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HTTP/1.1 200 OK 
HTTP Head Message 网 络 通 售 -HTTP 请 求 2 
( 空 行 ) 
HTTP Body Message | CM ews: sina.com.cn 
响应 信息 接收 | 请 求 信息 发 送 ”| 域名 解析 服务 器 
121.194.0.207 
获取 对 象 : : http://news.sina.com.cn/ 
协议 : http 
rp A A | 域名 : hews.sina.com.cn 
| 信息 解析 请 求 内 容 : / 
1 
1| 。 主体 内 容 提取 内 散 URL 提 取 “| 协议 解析 
1 
1 


图 2-5 HTTP 文本 信息 获取 范例 


络 交互 重 构 难度 呈 指 数 级 增长 。 
此 ,当前 关于 信息 获取 的 研究 正在 逐步 转向 在 应 用 层 利用 开源 浏览 器 部 分 组 件 甚至 

整个 开源 浏览 器 实现 网 络 媒体 信息 内 容 的 主动 获取 ,其 相关 内 容 将 在 2.2. 4 小 节 中 作 进 一 
步 讲解 。 

3. 信息 解析 

在 信息 获取 模块 获得 网 络 媒体 响应 信息 后 ,信息 解析 模块 的 核心 工作 是 根据 不 同 通信 
协议 的 具体 定义 ,从 网 络 响 应 信息 相应 位 置 提取 发 布 信息 的 主体 内 容 。 为 了 便于 开展 信息 
采集 与 否 判 断 ,信息 解析 模块 通常 还 将 按照 信息 判 重 的 要 求 ,进一步 维护 与 网 络 内 容 发 布 紧 
密 相 关 的 关键 信息 字段 ,例如 信息 来 源 、 信 息 标题 ,以 及 在 网 络 响应 信息 头 部 可 能 存在 的 信 
息 失 效 时 间 (Expires) 或 信息 最 近 修 改 时 间 (LasrModified) 等 。 信 息 解析 模块 会 把 提取 到 
的 内 容 直 接 交 给 信息 判 重 模块 ,在 通过 必要 的 重复 内 容 检 查 后 ,网 络 媒体 发 布 信息 的 主体 内 
容 及 其 对 应 的 关键 字段 将 被 存 人 互联 网 信息 库 。 

为 了 实现 跟随 网 页 内 嵌 链 接 递 归 遍 历 所 关注 的 网 络 范围 这 一 技术 需求 ,对 于 响应 信息 
类 型 (Content-Type) 是 text/ * 的 HTTP 文本 信息 ,信息 解析 模块 在 完成 响应 信息 主体 内 
容 及 关键 信息 字段 提取 的 同时 ,还 需要 进一步 开展 HTTP 文本 信息 内 内 URL 的 提取 操作 。 
信息 解析 模块 实现 HTTP 文本 信息 内 由 URL 提取 的 理论 依据 ,是 HTML 语言 关于 网 络 
超 文本 链接 (HyperTextLink) 标 记 的 系列 定义 。 信 息 解 析 模 块 一 般 通过 遍历 HTTP 文本 
信息 全 文 ,查找 网 络 超 文 本 链接 标记 的 方法 ,实现 HTTP 文本 信息 内 艇 URL 的 提取 。 当 前 
信息 解析 模块 还 可 以 先 面向 HTTP 文本 信息 构建 文档 对 象 模 型 (Document Object 
Module,DOM) 树 ,并 从 HTML DOM 树 的 相应 节点 获取 HTTP 文 本 内 由 URL 信息 。 

4. 信息 判 重 

在 网 络 媒体 信息 获取 环节 ,信息 判 重 模块 主要 基于 网 络 媒体 信息 URL 与 内 容 摘要 两 
大 元 素 , 实 现 信息 采集 /存储 的 与 否 判断 。 其 中 ,.URL 判 重 通常 是 在 信息 采集 操作 启动 前 进 
行 ,而 内 容 摘要 判 重 则 是 在 采集 信息 存储 时 发 挥 作用 。 

来 自 HTTP 文本 信息 的 内 嵌 URL 信息 ,首先 通过 URL 判 重 操作 确定 每 个 内 嵌 URL 
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是 否 已 经 实现 信息 获取 。 对 于 尚未 实现 发 布 内 容 采 集 的 全 新 URL ,信息 获取 模块 将 会 启动 
完整 的 信息 采集 流程 。 如 果 已 经 实现 内 容 采集 ,同时 注 明 信 息 失效 时 间 及 最 近 修 改 时 间 的 
URLCURL 信息 失效 时 间 及 最 近 修 改 时 间 已 由 信息 解析 模块 从 网 络 响应 信息 中 提取 得 到 ， 
并 存 于 互联 网 信息 库 中 ) ,信息 采集 模块 将 会 向 对 应 的 网 络 内 容 发 布 媒体 发 起 信息 查 新 获取 
操作 。 此 时 ,信息 采集 模块 只 会 对 于 已 经 失效 或 者 已 被 重新 修改 的 网 络 内 容重 新 启动 完整 
的 信息 采集 操作 。 信 息 采 集 模块 通常 被 要 求 重 新 采集 已 经 实现 信息 获取 ,但 未 注 明 信息 失 
效 时 间 及 最 近 修 改 时 间 的 URL 所 对 应 的 发 布 内 容 。 

在 面向 没有 提供 发 布 信息 失效 时 间 及 最 近 修 改 时 间 的 网 络 媒体 (网 络 通信 协议 并 未 强 
制 要 求 响应 信息 必须 提供 信息 失效 时 间 及 最 近 修 改 时 间 ) 时 , 仅 依靠 URL 判 重 机 制 , 是 无 
法 避免 同一 内 容 被 重复 获取 的 。 因 此 在 获取 信息 存储 前 ,需要 进一步 引入 内 容 摘要 判 重 机 
制 。 网 络 媒体 信息 获取 环节 可 以 基于 MD5 算法 ,逐一 维护 已 采集 信息 的 内 容 摘要 ,杜绝 相 
同 内 容重 复 存储 的 现象 。 


2.2.2 网 络 媒体 信息 获取 的 分 类 


按照 信息 获取 行为 所 涉及 的 网 络 范围 划分 ,网 络 媒体 信息 获取 可 以 分 为 面向 整个 国际 
互联 网 的 全 网 信息 获取 ,以 及 针对 某 些 具体 网 络 区 域 的 定点 信息 获取 。 按 照 信息 获取 行为 
在 工作 范围 内 所 关注 的 对 象 划分 ,网 络 媒体 信息 获取 还 可 以 分 为 针对 工作 范围 内 所 有 发 布 
信息 的 面向 全 部 内 容 的 信息 获取 ,以 及 仅 关 注 工作 网 络 范围 内 某 些 热门 话题 的 基于 具体 主 
题 的 信息 获取 。 本 小 节 重 点 介绍 全 网 信息 获取 与 定点 信息 获取 在 技术 要 求 与 实现 方法 方面 
的 区 别 ,并 进一步 讲解 基于 主题 的 信息 获取 方法 ,以 及 该 领域 代表 性 技术 一 一 元 搜索 。 

1. 全 网 信息 获取 

全 网 信息 获取 工作 范围 涉及 整个 国际 互联 网 内 所 有 网 络 媒体 的 发 布 信息 ,主要 应 用 于 
搜索 引擎 (Search Engine) (例如 Google、 Baidu 或 Yahoo 等 ) 和 大 型 内 容 服 务 提供 商 
(Content Service Provider) 的 信息 获取 。 随 着 网 络 新 型 媒体 的 不 断 出 现 、 网 络 信息 发 布 形 
式 的 更 新 换代 ,纯粹 通过 跟随 网 络 链 接 已 经 很 难 达 到 遍历 整个 互联 网 的 效果 。 因 此 ,全 网 信 
息 获取 发 起 方 在 不 断 更 新 、 扩 展 用 于 信息 获取 的 初始 URL 集合 的 同时 ,还 建议 新 接 入 互联 
网 的 网 络 媒体 主动 向 信息 获取 方 提交 自身 网 站 地 图 (SiteMap)。 这 有 利于 全 网 信息 获取 机 
制 面向 新 网 络 媒体 实现 发 布 内 容 采集 ,从 而 保证 其 尽 可 能 全 面 地 覆盖 整个 国际 互联 网 。 

正如 前 文 所 述 ,整个 国际 互联 网 信息 总 量 非常 大 ,考虑 到 本 地 用 于 信息 采集 的 存储 空间 
有 限 , 全 网 信息 获取 发 起 方 实际 上 并 没有 把 所 有 网 络 媒体 信息 都 采集 到 本 地 。 搜 索引 擎 或 
大 型 内 容 服 务 提供 商 在 进行 全 网 信息 获取 时 ,通常 基于 特定 的 计算 方法 (例如 Google 的 
Page Rank 算法 ) 对 每 条 网 络 信息 进行 评判 ,只 是 获取 或 长 时 间 保 存在 信息 评判 系统 中 排名 
靠 前 的 网 络 信息 ,例如 链接 引用 率 较 高 的 网 络 媒 体 发 布 内 容 。 另 外 ,由 于 工作 对 象 遍 布 整个 
国际 互联 网 , 单 次 全 网 信息 获取 一 般 需 要 数 周 乃 至 数 月 的 时 间 。 因 此 在 面 对 信 息 更 新 相对 
频繁 的 网 络 媒体 (如 论坛 或 博客 ) 时 ,全 网 信息 获取 机 制 的 内 容 失效 率 相对 较 高 ,其 对 于 每 个 
网 络 媒体 发 布 内 容 获 取 的 时 效 性 无 法 实现 统一 保证 。 尽 管 如 此 ,全 网 信息 获取 作为 搜索 引 
擎 与 内 容 服务 提供 商 不 可 或 缺 的 信息 获取 机 制 , 依 然 在 网 络 信息 应 用 中 发 挥 着 极为 关键 的 
作用 。 
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2. 定点 信息 获取 

于 全 网 信息 获取 不 仅 对 于 内 容 存储 空间 要 求 过 高 ,而 且 无 法 保证 网 络 媒体 发 布 内 容 
获取 的 时 效 性 ,因此 在 网 络 媒体 信息 获取 只 是 重点 关注 某 些 特定 的 网 络 区 域 , 并 且 向 信息 获 
取 机 制 相 对 于 媒体 内 容 发 布 的 网 络 时 延 提出 较 高 要 求 时 ,定点 信息 获取 的 概念 应 运 而 生 。 

定点 信息 获取 的 工作 范围 限制 在 服务 于 信息 获取 的 初始 URL 集合 中 每 个 URL 所 属 
的 网 络 目录 内 ,深入 获取 每 个 初始 URL 所 属 的 网 络 目录 及 其 下 子 目录 中 包含 的 网 络 发 布 
内 容 , 不 再 向 初始 URL 所 属 网 络 目录 的 上 级 目录 乃至 整个 互联 网 扩散 信息 获取 行为 。 如 
果 说 全 网 信息 获取 关注 的 是 信息 获取 操作 的 全 面 性 , 即 信息 获取 在 整个 互联 网 中 的 覆盖 情 
况 , 定 点 信息 获取 机 制 则 更 加 重视 在 限定 的 网 域 范围 内 进行 深入 的 网 络 媒体 发 布 内 容 获 取 ， 
同时 有 效 保证 获取 信息 的 时 效 性 。 

定点 信息 获取 正 是 通过 周期 性 地 遍历 每 个 初始 URL 所 属 的 网 络 目录 ,达到 在 初始 
URL 设 定 的 网 域 范围 内 深入 获取 网 络 发 布 内 容 的 技术 需求 。 与 此 同时 ,周期 性 遍历 初始 
URL 所 属 网 络 目录 的 时 间 间 隔 ,是 定点 信息 获取 用 于 确保 内 容 采 集 时 效 性 的 关键 参数 。 合 
理 设 定 周期 轮 询 、 查 新 获取 初始 URL 所 属 网 络 目 录 的 时 间 间 隔 ,可 以 确保 定点 信息 获取 机 
制 不 至 于 错失 目标 网 络 媒体 不 断 更 新 的 发 布 内 容 , 并 且 防 止 信息 获取 机 制 过 分 增加 目标 媒 
体 的 工作 负载 。 

3. 基于 主题 的 信息 获取 与 元 搜索 

由 于 在 整个 国际 互联 网 或 限定 的 网 域 范围 内 ,全 面 获取 所 有 网 络 媒体 发 布 内 容 可 能 造 
成 本 地 存储 信息 泛滥 ,因此 在 所 关注 的 网 络 范围 内 只 面向 某 些 特定 话题 进行 基于 主题 的 信 
息 获取 ,是 在 面向 全 部 内 容 的 信息 获取 以 外 另 一 个 行 之 有 效 的 信息 获取 机 制 。 顾 名 思 义 , 基 
于 主题 的 信息 获取 只 把 与 预 设 主题 相符 的 内 容 采集 到 本 地 ,并 在 信息 获取 过 程 中 增加 了 内 
容 识 别 环节 ,可 以 只 是 简单 的 主题 词汇 匹配 ,也 可 以 面向 发 布 内 容 进 行 基于 主题 的 模式 识 
别 , 从 而 在 关注 的 网 络 范围 内 有 选择 地 获取 网 络 媒体 发 布 内 容 。 相 对 于 面向 全 部 内 容 的 信 
息 获取 ,基于 主题 的 信息 获取 机 制 正 是 通过 有 效 减 少 需要 采集 的 内 容 总 量 , 进 一 步 降 低 已 采 
集 内 容 的 失效 率 , 同 时 显著 减少 服务 于 信息 采集 的 内 容 存储 空间 。 

伴随 搜索 引擎 应 用 的 不 断 深入 ,在 搜索 引擎 的 协助 下 进行 基于 主题 的 信息 获取 技 
术 一 一 元 搜索 技术 ,得 到 了 越 来 越 多 的 应 用 。 元 搜索 属于 特殊 的 基于 主题 的 信息 获取 , 它 将 
主题 描述 词 传 递 给 搜索 引擎 进行 信息 检索 ,并 把 搜索 引擎 针对 主题 描述 词 的 信息 检索 结果 
作为 基于 主题 信息 获取 的 返回 内 容 。 

元 搜索 技术 得 以 实现 的 关键 原因 是 : 每 个 搜索 引擎 在 为 输入 词 目 构造 信息 检索 URL 
时 是 有 规律 可 循 的 。 以 中 /英文 信息 检索 词 目 为 例 , 常 用 搜索 引擎 是 把 英文 词 目的 原本 内 容 
或 中 文 词 目 所 对 应 的 汉字 编码 作为 信息 检索 URL 的 参数 输入 。 例 如 ,Baidu 是 选择 中 文 词 
目的 GB 编码 作为 信息 检索 URL 参数 。 除 输入 参数 不 同 以 外 ,用 于 相同 搜索 引擎 的 信息 检 
索 URL 的 其 余部 分 完全 相同 ,如 图 2-6 所 示 。 

元 搜索 技术 正 是 通过 在 不 同 搜索 引擎 的 网 络 交互 过 程 中 ,根据 每 个 搜索 引擎 的 具体 要 
求 构 造 主题 描述 词 信息 检索 URL. 向 搜索 引擎 发 起 信息 检索 请 求 。 元 搜索 技术 利用 搜索 引 
擎 进行 基于 主题 的 信息 获取 操作 , 它 把 搜索 引擎 关于 主题 描述 词 的 信息 检索 结果 作为 信息 
获取 对 象 ,从 而 实现 面向 特定 主题 的 网 络 发 布 内 容 获取 。 
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tr 





e090 
Bai 《VV 百度 metasearch———————» https://wy. baidu. co/s?wd=metasearch 
@0 
Bai 人 百度 一 利和 https://wwy. baidu. coys7?wd=%D4%AA%CB%D19%CB%F7 
@0 
Baied 百度 Eee https://wwv. baidu, co/s?wd=%CA%FD%BE%DD%CD%DA%BE%F2 


2-6 搜索 引擎 信息 检索 URL 构造 范例 





2.2.3 网 络 媒体 信息 获取 的 难点 分 析 


在 网 络 媒体 信息 获取 功能 实现 过 程 中 ,无 论 是 全 网 信息 获取 ,还 是 定点 信息 获取 ,都 存 
在 相当 程度 的 技术 应 用 实现 难度 。 另 外 ,元 搜索 作为 特殊 的 基于 主题 的 信息 获取 ,其 在 信息 
获取 结果 排序 方面 仍然 存在 尚未 解决 的 技术 难点 。 

首先 ,网 络 媒体 信息 获取 的 工作 对 象 是 信息 形态 各 异 、 信 息 类 型 多 样 的 互联 网 媒体 ,在 
信息 总 量 迅速 膨胀 的 互联 网 信息 面前 ,网 络 媒体 信息 获取 机 制 通 常 需要 在 获取 内 容 的 全 面 
性 和 时 效 性 之 间作 出 取舍 。 与 此 同时 ,在 面 对 完全 异 构 的 网 络 媒 体 发 布 信息 时 ,信息 获取 技 
术 需 要 在 各 类 不 同 的 网 络 媒 体 间 普 遍 适 用 ,这 又 为 网 络 媒 体 信息 获 取 功 能 提出 了 更 高 的 技 
术 要 求 。 当 前 网 络 媒体 信息 获取 机 制 在 保留 传统 的 基于 网 络 交 互 过 程 重 构 机 制 实现 信息 获 
取 的 基础 上 ,逐步 转向 在 信息 获取 过 程 中 集成 开源 浏览 器 部 分 组 件 甚至 整体 ,用 于 提高 技术 
功能 能 级 降低 技术 实现 难度 。 

其 次 ,由 于 部 分 网 络 媒 体 选择 屏 珊 过 于 频繁 的 、 来 自 相同 客户 端的 信息 获取 操作 ,因此 
定点 信息 获取 技术 实现 的 难点 还 包括 在 周期 性 地 遍历 设 定 网 域 发 布 内 容 、 确 保定 点 信息 获 
取 的 深入 性 与 时 效 性 的 基础 上 ,有 效 回 避 目 标 媒体 对 于 所 谓 “ 恶 意 ” 信 息 获 取 行 为 的 封禁 。 
要 解决 这 一 技术 难点 ,一 方面 可 以 通过 适当 选择 周期 遍历 时 间 间 隔 , 防 止 信息 获取 行为 造成 
网 络 媒体 负载 过 重 ; 另 一 方面 则 涉及 定期 修改 用 于 内 容 获 取 的 网 络 客 户 端 信息 请 求 内 容 
(内 容 协 商行 为 ), 以 避免 遭遇 目标 网 络 媒体 的 拒绝 服务 。 

最 后 ,元 搜索 在 通过 搜索 引擎 实现 基于 主题 的 信息 获取 过 程 中 ,可 以 选择 向 多 个 搜索 引 
擎 串 /并 行 发 送信 息 检索 请 求 , 扩 大 元 搜索 技术 的 网 络 覆 盖 面 。 正 是 由 于 这 一 应 用 需求 ,对 
不 同 主题 选择 恰当 的 搜索 引擎 ,同时 基于 合适 的 主题 相关 度 判 断 法 则 ,对 来 自 不 同 搜索 引擎 
的 信息 检索 结果 实现 基于 主题 的 相关 度 排序 , 正 是 当前 元 搜索 技术 研究 的 难点 所 在 。 


2.2.4 网 络 媒体 信息 获取 的 方法 


在 完成 关于 网 络 媒体 信息 获取 技术 的 一 般 性 原理 描述 后 .本 小 节 继 续 介 绍 针对 各 类 网 
络 媒 体 的 发 布 信息 获取 方法 。 按 信息 发 布 方式 分 类 .网 络 媒体 信息 可 分 成 直接 匿名 浏览 信 
息 与 需 身份 认证 网 络 媒体 发 布 信息 两 类 ; 按 网 页 具体 形态 分 类 ,网 络 媒体 信息 又 可 分 成 静 
态 网 页 与 动态 网 页 两 类 ,本 小 节 首 先 介绍 采用 网 络 交互 过 程 重 构 机 制 , 实 现 需要 身份 认证 的 
静态 网 页 发 布 信息 获取 方法 。 在 此 基础 上 ,本 小 节 进 一 步 介绍 基于 开源 浏览 器 脚本 解析 组 
件 ,实现 内 艇 脚本 语言 片段 的 动态 网 页 发 布 信息 获取 方法 。 最 后 重点 介绍 基于 浏览 器 模拟 
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技术 ,实现 形态 各 异 、 类 型 不 同 的 网 络 媒体 发 布 信息 获取 。 

1. 需 身份 认证 静态 媒体 发 布 信息 获取 

随 着 网 络 社区 概念 及 个 性 化 信息 概念 的 不 断 普及 ,当前 多 数 网 络 媒体 首先 需要 身份 认 
证 , 才 可 进行 正常 的 内 容 访 问 。 对 于 正在 进行 网 络 浏览 的 用 户 而 言 ,身份 过 程 是 相对 简单 
的 。 互 联网 用 户 只 需要 根据 网 络 内 容 发 布 者 的 提示 ,在 身份 认证 网 页 上 填写 正确 的 用 户 名 、 
密码 信息 ,进行 必要 的 图 灵 测 试 (正确 输入 以 图 像 信息 显示 的 身份 认证 验证 码 内 容 ) ,并 提交 
所 有 信息 ,就 能 成 功 完成 身份 认证 。 尽 管 如 此 ,对 于 通过 网 络 交互 重 构 实现 信息 获取 的 计算 
机 而 言 ,增加 身份 认证 过 程 将 直接 导致 用 于 信息 获取 的 网 络 通信 过 程 模拟 变 得 更 加 复杂 。 
在 此 重点 探讨 基于 网 络 交 互 的 重 构 机 制 ,面向 需要 身份 认证 的 对 外 发 布 的 网 页 形态 (都 属于 
静态 网 页 范畴 的 静态 网 络 媒体 ) ,实现 发 布 内 容 提取 的 具体 方法 。 

在 基于 网 络 交互 重 构 实 现 信息 获取 的 过 程 中 ,如 果 网 络 媒体 要 求 身份 认证 ,信息 获取 环 
节 就 需要 在 原 有 的 信息 请 求 过 程 重 构 前 ,首先 模拟 基于 HTTP 协议 的 网 络 身份 认证 过 程 ， 
这 是 由 于 面向 网 络 媒体 的 身份 认证 通常 基于 HTTP 协议 。 基 于 网 络 交互 重 构 实 现 身 份 认 
证 信息 获取 主要 涉及 用 于 表明 身份 认证 成 功 的 Cookie 信息 获得 ,以 及 携带 相关 Cookie 信 
息 进一步 向 网 络 媒体 请 求 发 布 内 容 两 个 独立 环节 。 

1) 基于 Cookie 机 制 实现 身份 认证 

Cookie 机 制 用 于 同一 互联 网 客户 端 在 不 同时 刻 访问 相同 网 络 媒体 时 ,客户 端 信息 的 恢 
复 与 继承 。HTTP/1. 1 针对 Cookie 机 制定 义 了 两 类 报头 选项 (HeaderFields) ,分 别 是 Set- 
Cookie 选项 和 Cookie 选项 。 其 中 ,Cookie 选项 存在 于 互联 网 客户 端 发 送 的 请 求 信息 中 ,而 
Set-Cookie 选项 则 出 现在 网 络 媒体 响应 信息 的 头 部 。 

在 互联 网 客户 端 向 网 络 媒体 发 送信 息 请 求 , 尤 其 是 个 性 化 ( 自 定义 ) 的 信息 请 求 时 ,网 络 
媒体 响应 信息 头 部 通常 会 包含 Set-Cookie 选项 ,返回 记录 在 网 络 媒 体 端 的 互联 网 用 户 身份 
信息 。 在 获得 网 络 媒体 响应 信息 后 ,互联 网 客户 端 在 提取 响应 信息 主体 内 容 的 同时 ,还 会 将 
响应 信息 中 的 Set-Cookie 选项 内 容 存 人 本 地 Cookie 信息 记录 文件 。 当 互联 网 客户 端 再 次 
向 相同 的 网 络 媒 体 发 送信 息 请 求 时 ,请 求 信息 就 会 包含 Cookie 选项 , 若 Cookie 选项 内 容 与 
先前 的 Set-Cookie 选项 内 容 一 致 , 则 互联 网 客户 端 在 网 络 媒 体 端 保留 的 身份 信息 就 会 得 以 
继承 ,网 络 媒体 会 自动 根据 先前 的 用 户 自 定 义 信 息 返 回 相 应 的 响应 内 容 , 如 图 2-7 所 示 。 




















1. 发 送 个 性 化 ( 自 定义 ) 请 求 





互联 网 客户 端 


2. 响应 信息 包含 Set-Cookie 
3. 将 响应 信息 中 的 选项 
Set-Cookie 选 项 内 
容 存 入 本 地 Cookie 
信息 记录 文件 


玄 疾 荣 司 


4. 请 求 信息 包含 Cookie 选 项 扒 
带 Set-Cookie 选 项 内 容 














5. 根据 先前 的 用 户 自 定 
义 返 回响 应 信息 


2-7 基于 Cookie 机 制 的 HTTP 信息 交互 过 程 
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利用 Cookie 机 制 实现 身份 认证 ,就 是 在 互联 网 客户 端面 向 需 身份 认证 网 络 媒 体 认 证 成 
功 后 ,网 络 媒体 向 客户 端 返回 记录 在 媒体 端的 用 户 信 息 , 即 用 于 表明 身份 认证 成 功 的 
Cookie 信息 ,只 要 客户 端 在 随后 的 发 布 信息 请 求 中 携带 表明 认证 成 功 的 Cookie 信息 ,网 络 
媒体 就 会 向 客户 端 返回 需要 身份 认证 才 可 访问 的 网 络 发 布 内 容 。 

对 于 没有 携带 表明 认证 成 功 Cookie 的 客户 端 请 求 ,网 络 媒体 则 返回 身份 认证 失败 信 
息 , 并 要 求 用 户 进行 身份 认证 ,如 图 2-8 所 示 。 


3 ' 返回 要 求 身份 认证 页 面 了 
2' 认证 失 














1' 未 携带 表明 认证 成 功 ， 区 
Cookie 请 求 需 认 证 访问 信息 
万 一 | 1. 发 送 用 户 身份 认证 信息 = 
入 | 3. 响应 信息 包含 Set-Cookie 选 项 传 大 四 


输 表明 身份 认证 成 功 Cookie 信 息 
4. 提取 并 存储 


Cookie 信 息 
t 5. 携带 表明 身份 认证 成 功 Cookie, 
请 求 需 身份 认证 访问 信息 
Se 6. 返回 需 身份 认证 才 可 访问 信息 


图 2-8 基于 Cookie 机 制 实现 需 身份 认证 才 可 访问 信息 请 求 

2) 基于 网 络 交互 重 构 实 现 媒体 信息 获取 

基于 网 络 交互 重 构 实 现 媒体 信息 获取 是 指 立 足 于 真实 的 网 络 通信 过 程 , 通 过 网 络 编程 
顺序 模拟 网 络 媒 体 信息 请 求 过 程 的 各 个 环节 ,最 终 实现 网 络 媒 体 发 布 信息 获取 。 在 面 对 需 
身份 认证 才 可 浏览 的 静态 媒体 进行 发 布 信息 获取 时 ,网 络 身份 认证 过 程 与 静态 媒体 所 含 网 
页 及 其 内 艇 URL 发 布 信 息 请 求 过 程 ,都 需要 进行 正确 的 网 络 交 互 过 程 模拟 ,才能 达到 获取 
静态 媒体 发 布 信息 的 最 终 目标 。 

在 基于 网 络 交互 重 构 实现 媒体 信息 获取 过 程 中 ,媒体 信息 获取 环节 是 通过 响应 信息 返 
回 码 判断 信息 获取 请 求 是 否 成 功 的。 一 般 而 言 ,HTTP/1. X 20X( 例 如 HTTP/1.1 200OK) 
标志 信息 请 求 成 功 ,HTTP/1. X 40X 标志 信息 请 求 失败 ,而 HTTP/1. X 401 则 标志 在 信息 
请 求 过 程 中 身份 认证 失败 ,此 时 网 络 媒 体 信 息 获 取 环 节 需 要 智能 地 进行 身份 认证 过 程 模拟 ， 
如 图 2-9 所 示 。 

当 针 对 首次 信息 请 求 的 响应 返回 码 是 401 时 ,媒体 信息 获取 环节 首先 判断 内 容 发 布 媒 

体 身 份 认证 过 程 是 否 需 要 图 灵 检 测 。 所 谓 图 灵 检 测 , 是 指 目前 在 网 络 媒体 身份 认证 过 程 中 
普遍 使 用 的 高 噪声 数字 /字母 图 像 ,在 互联 网 客户 端 填 写 用 户 名 /密码 信息 时 ,必须 同时 辨识 
数字 /字母 信息 ,并 与 用 户 名 /密码 信息 一 同 提交 , 才 可 以 通过 身份 认证 。 用 于 网 络 媒体 信息 
获取 的 用 户 名 /密码 信息 ,可 以 事先 在 目标 媒体 上 手动 申请 得 到 ,并 针对 不 同 网 络 媒 体 维护 
用 户 名 /密码 库 。 

需要 特别 说 明 的 是 ,在 基于 网 络 交 互 重 构 实现 静态 媒体 发 布 信息 获取 过 程 中 ,网 络 编程 
模拟 信息 请 求 过 程 ,理论 上 可 以 通过 充分 了 解 相关 通信 协议 的 具体 交互 过 程 予 以 实现 。 但 
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是 考虑 到 每 个 网 络 媒体 身份 认证 过 程 不 尽 相 同 , 并 且 针对 不 同 网 络 媒体 发 布 信息 的 请 求 数 
据 包 内 容 组 成 各 异 ,完全 基于 理论 进行 通信 协议 数据 交互 过 程 模拟 在 网 络 交互 数据 包 重 组 
与 分 析 环 节 存 在 诸多 难点 。 





发 出 HTTP GET 请 求 











获取 成 功 


























验证 码 图 像 识 别 
401 发 出 含 身份 /密码 HTTP 网 络 媒体 / 
GET 请 求 用 户 名 / 
密码 库 
认证 成 功 
身份 认证 
内 容 请 求 


图 2-9 网 络 媒体 信息 获取 身份 认证 模拟 


这 时 可 以 在 常见 的 局 域 网 侦 听 工具 协助 下 ,手动 完成 身份 认证 请 求 与 静态 网 页 信息 浏 
览 全 过 程 , 并 从 侦 听 工具 中 获得 身份 认证 请 求 数据 包 、 网 络 媒体 响应 数据 包 , 以 及 静态 网 页 
信息 请 求 数据 包 的 具体 构成 ,如 图 2-10 所 示 。 

在 此 基础 上 编程 模拟 网 络 交 互 过 程 时 ,可 以 直接 按照 信息 请 求 数据 包 的 实际 组 成 ,构造 
身份 认证 及 网 页 信息 请 求 数据 包 ( 携 带 表 明 认 证 成 功 的 Cookie) ,并 在 面向 身份 认证 请 求 的 
响应 数据 包 相 应 位 置 提取 表明 身份 认证 成 功 的 Cookie 信息 ,例如 Set-Cookie 选项 内 容 。 在 
完全 掌握 真实 网 络 通信 过 程 的 前 提 下 进行 网 络 交互 重 构 , 能 够 有 效 降低 网 络 通信 数据 包 的 
重组 与 分 析 以 及 编程 重 构 网 络 交 互 过 程 的 工作 复杂 度 。 

通过 网 络 交互 重 构 获 取 到 静态 网 络 媒体 起 始 网 页 发 布 信息 后 ,可 以 采用 传统 的 基于 
HTML 标记 匹配 的 网 页 解析 方法 ,提取 网 页 主体 内 容 及 其 内 嵌 URL 信息 。 例 如 ,可 以 从 
< W > 与 </body > 标记 对 中 提取 静态 网 页 主体 内 容 , 从 < ahref 王 …> 与 </a > 标记 对 中 提取 网 
页 内 骨 URL 信息 。 关 于 网 页 解析 方法 可 能 涉及 的 其 他 HTML 标记 .读者 可 以 自行 查阅 文 
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2-10 基于 局 域 网 侦 听 工具 了 解 网 络 交互 数据 包 组 成 


献 一 一 TML 4.01 Specification,，W3C Recommendation，December1999。 之 后 ,网 络 媒体 
信息 获取 环节 将 继续 为 每 个 内 骨 URL 构建 并 发 送信 息 请 求 包 ( 内 含 表明 身份 认证 成 功 的 
Cookie) ,以 获取 其 发 布 内 容 , 最 终 在 所 关注 的 互联 网 范围 内 ,针对 需要 身份 认证 的 静态 网 络 
媒体 事先 发 布 信息 提取 工作 。 

2. 内藤 脚 本 语言 片段 的 动态 网 页 信息 获取 

动态 网 页 主体 内 容 及 其 内 机 URL 信息 完全 封装 于 网 页 源 文件 中 的 脚本 语言 片段 内 ， 
如 图 2-11 所 示 。 当 通过 网 络 交互 重 构 获 得 动态 网 页 发 布 信息 时 ,无 法 直接 使 用 基于 
HTML 标记 匹配 方法 提取 网 页 主体 内 容 及 其 内 嵌 URL 信息 。 在 这 种 情况 下 ,可 以 先 把 动 
态 网 页 中 包含 的 所 有 脚本 语言 片段 传递 给 Mozilla 浏览 器 的 脚本 解释 组 件 一 - 
SpiderMonkey 或 独立 脚本 解释 引擎 一 一 Rhino, 实 现 动态 脚本 解析 并 获得 脚本 片段 所 对 应 
的 静态 网 页 内 容 , 进 而 按照 静态 网 页 信息 获取 方法 完成 动态 网 页 及 其 内 嵌 URL 发 布 内 容 
的 获取 工作 。 

鉴于 当前 JavaScript 广泛 应 用 于 动态 网 页 的 编写 ,本 小 节 主 要 讲解 如 何 基于 脚本 解释 
引擎 Rhino ,面向 包含 JavaScript 的 动态 网 页 实现 发 布 信息 获取 。 不 过 在 这 以 前 ,首先 介绍 
利用 文档 对 象 模型 DOM 树 提 取 动 态 网 页 所 含 脚本 语言 片段 的 具体 方法 。 该 方法 同样 适用 
于 提取 静态 网 页 主体 内 容 以 及 网 页 内 由 URL 信息 。 

1) 利用 HTML DOM 树 提取 动态 网 页 内 的 脚本 语言 片段 

文档 对 象 模型 DOM 是 以 层次 结构 组 织 的 节点 或 信息 片段 的 集合 , 它 提供 跨 平台 并 且 
可 应 用 于 不 同 编程 语言 的 标准 程序 接口 。DOM 把 文档 转换 成 树 形 结构 ,使 文档 中 的 每 个 
部 分 都 成 为 DOM 树 的 节点 。HTML DOM 是 专门 应 用 于 HTML/XHTML 的 文档 对 象 模 
型 ,主要 包含 Window、Document、Location、Screen、Navigator 与 History 等 HTML DOM 
对 象 。HTML 网 页 与 HTML DOM 树 间 的 对 应 关系 如 图 2-12 所 示 。 

HTML 网 页 对 应 的 HTML DOM 树 存储 于 浏览 器 内 存 对 象 中 ,该 对 象 实现 了 包含 若 
干 方法 的 标准 程序 接口 。 网 页 开发 人 员 可 以 通过 相应 接口 .对 HTML DOM 树 上 的 每 个 节 
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但 尔 等 下 接受 路 渤 计 采访 
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图 2-11 动态 网 页 主体 内 容 封装 于 源 文件 脚本 语言 片段 中 





HTML 网 页 源 文件 


<Html> 
<Head> Head 


<Title>Sample</Title> 
Head JE 
<Body> 
<P>Content</P> 
<Body> Body 


</Html> 



























































2-12 HTML 网 页 对 应 的 HTML DOM 树 


点 进行 遍历 查询、 修改 或 删除 等 操作 ,从 而 动态 访问 和 实时 更 新 HTML 网 页 的 内 容 、 结 构 
与 样式 。 

动态 HTML 网 页 的 脚本 语言 片段 通常 书写 于 < Script > 与 /Script > 标记 对 中 ,而 特定 
的 JavaScript 脚本 语言 片段 可 以 使 用 “JavaScript: ”在 片段 开始 处 进行 标记 。 因 此 可 以 在 
HTML DOM 树 中 ,通过 遍历 标记 脚本 片段 的 Script 节点 或 JavaScript 节点 ,获得 动态 
HTML 网 页 内 包含 的 所 有 脚本 语言 片段 。 同 理 , 可 以 通过 查询 Body 节点 ,获得 静态 网 页 主 
体内 容 。 另 外 ,由 于 静态 网 页 内 嵌 网 络 超 链接 地 址 通常 位 于 < ahref > 和 </a > 标记 对 中 , 通 
常 可 以 通过 遍历 A 节点 ,获得 静态 网 页 内 嵌 URL 信息 。 

2) 基于 Rhino 实现 JavaScript 动态 网 页 信息 获取 

正如 上 面 所 述 ,遍历 HTML DOM 树 可 以 得 到 JavaScript 动态 网 页 所 包含 的 脚本 片 
段 。 为 了 实现 JavaScript 网 页 发 布 信息 的 获取 ,需要 把 提取 到 的 JavaScript 片段 输入 独立 
解释 引擎 Rhino 实现 动态 脚本 解析 ,获得 脚本 片段 所 对 应 的 静态 网 页 形式 ,并 最 终 完 成 
JavaScript 动态 网 页 发 布 信息 获取 工作 ,如 图 2-13 所 示 。 
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主体 内 容 信息 提取 
图 2-13 基于 Rhino 实现 JavaScript 动态 网 页 发 布 信息 获取 


在 Rhino 进行 JavaScript 网 页 动态 脚本 解析 过 程 中 ,需要 首先 完成 脚本 片段 包含 的 所 
有 对 象 初始 化 操作 ,然后 按照 动态 网 页 加 载 过 程 顺序 执行 JavaScript 脚本 片段 。 

(1) 对 象 初始 化 。 作 为 脚本 解释 引擎 ,Rhino 虽然 可 以 直接 识别 JavaScript 语言 内 置 对 
象 与 动态 网 页 脚本 片段 自 定义 对 象 ,并 自动 调用 可 识别 对 象 定义 的 方法 ,但 是 它 无 法 识别 与 
调用 某 些 特殊 对 象 定义 的 方法 。 在 脚本 解释 引擎 对 象 初始 化 阶段 ,Rhino 无 法 识别 的 特殊 
对 象 主要 指 上 文 提 到 的 Window、Document、 Location、Screen、Navigator 与 History 等 
HTML DOM 对 象 。 

因此 ,在 启动 Rhino 顺序 执行 JavaScript 片段 前 ,首先 需要 自 定义 脚本 片段 所 含 
HTML DOM 对 象 方法 的 具体 功能 ,完成 HTML DOM 对 象 的 本 地 创建 工作 ,如 图 2-14 所 
示 。 随 着 Ajax 机 制 在 Web 2.0 应 用 中 的 不 断 普及 ,多 数 动态 网 页 还 选择 Ajax 技术 调用 静 
态 文本 信息 。 对 于 包含 Ajax 机 制 的 动态 网 页 ,在 对 象 初始 化 阶段 ,还 需要 附加 对 Ajax 机 制 


中 XmlHttpRequest 对 象 方法 的 自 定义 。 
JavaScript 语 言 
内 置 对 象 


可 识别 对 象 自动 初始 化 本 地 创建 






JavaScript 片 段 
































脚本 解释 引擎 Rhino 运 行 环境 | 








图 2-14 脚本 解释 引擎 Rhino 对 象 初始 化 
在 对 象 初始 化 阶段 进行 Rhino 无 法 识别 的 特殊 对 象 本 地 创建 ,就 是 在 Rhino 运行 环境 
中 定义 特殊 对 象 方法 函数 的 具体 功能 。 例 如 ,HTML DOM 对 象 Window 方法 函数 Open 
的 参数 是 动态 页 面 内 艇 URL 信息 ,默认 功能 是 新 建 浏 览 器 窗口 显示 该 URL 发 布 内 容 。 在 
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Window 对 象 Open 方法 的 本 地 创建 过 程 中 ,可 在 Rhino 运行 环境 中 自 定义 该 方法 的 功能 ， 
把 对 应 URL 信息 置 入 信息 获取 环节 的 URL 队列 ,等 待 进行 信息 获取 操作 。 相 应 的 ， 
HTML DOM 对 象 Document 方法 函数 Write 的 参数 是 静态 网 页 信息 ,默认 功能 是 在 当前 
浏览 器 窗口 中 显示 静态 网 页 发 布 内 容 。 可 在 Document 对 象 Write 方法 功能 自 定义 时 说 明 
该 方法 ,用 于 把 静态 网 页 信息 写 入 位 于 信息 采集 端的 特定 文件 中 。 

在 Rhino 进行 JavaScript 片段 解析 过 程 中 ,如 果 遇 到 无 法 直接 识别 的 特殊 对 象 , 它 会 在 
运行 环境 中 寻找 该 对 象 方法 函数 的 具体 定义 , 即 调用 特殊 对 象 在 本 地 创建 时 声明 的 方法 
功能 。 

(2) Rhino 执行 JavaScript 脚本 片段 。 在 按照 动态 网 页 加 载 过 程 顺序 执行 JavaScript 
脚本 片段 的 过 程 中 ,脚本 解释 引擎 Rhino 逻辑 上 可 以 分 为 前 端 环节 和 后 端 环节 两 部 分 。 前 
端 环节 顺序 进行 词法 及 语法 分 析 , 其 中 语法 分 析 产 生 语 法 树 ,前 端 环 节 正 是 基于 语法 树 生 成 
中 间 代 码 。 前 端 环节 产生 的 中 间 代 码 就 是 后 端 环 节 需 要 解释 执行 的 目标 代码 ,后 端 环节 对 
于 中 间 代 码 解释 执行 的 最 终 输 出 是 JavaScript 脚本 片段 对 应 的 静态 网 页 信息 。 脚 本 片段 变 
量 信 息 统一 存储 于 记录 表 模 块 的 符号 表 中 ,常量 信息 及 对 象 属性 名 信息 存储 于 记录 表 模 块 
的 常量 表 中 ,记录 表 模 块 贯穿 脚本 片段 解释 的 全 过 程 ,如 图 2-15 所 示 。 
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2-15 JavaScript 脚本 片段 在 Rhino 中 的 执行 过 程 


Rhino 按照 加 载 过 程 顺序 执行 JavaScript 动态 网 页 脚本 片段 后 的 输出 ,是 脚本 片段 所 
对 应 的 静态 网 页 形式 。 在 此 基础 上 ,可 以 利用 传统 的 HTML 标记 匹配 方法 ,也 可 以 通过 遍 
历 静态 网 页 的 HTML DOM 树 ,获得 静态 网 页 主体 内 容 , 提 取 网 页 内 风 URL 信息 并 置信 待 
获取 URL 队列 ,从 而 最 终 完 成 JavaScript 动态 网 页 发 布 信息 的 获取 工作 。 
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3. 基于 浏览 器 模拟 实现 网 络 媒体 信息 获取 

之 前 介绍 的 网 络 媒体 信息 获取 方法 的 技术 实质 ,可 以 统一 归属 于 采用 网 络 交互 重 构 机 
制 实现 网 络 媒体 信息 获取 。 一 方面 ,在 面向 需要 身份 认证 的 静态 网 页 实现 发 布 信息 获取 过 
程 中 ,网 络 媒体 信息 获取 环节 通过 网 络 交互 重 构 完 整 实现 身份 认证 过 程 与 信息 请 求 / 响 应 过 
程 ; 另 一 方面 ,为 了 实现 动态 网 页 发 布 信息 的 获取 ,在 通过 网 络 交互 重 构 取 得 动态 网 页 发 布 
内 容 后 ,首先 需要 基于 独立 解释 引擎 实现 动态 脚本 片段 解析 ,获得 动态 网 页 所 对 应 的 静态 网 页 
形态 ,进而 继续 采用 网 络 交 互 重 构 机 制 实现 静态 网 页 主体 内 容 与 内 髋 URL 发 布 信息 的 获取 。 

网 络 交互 重 构 机 制 是 网 络 媒体 信息 获取 的 一 般 性 方法 ,从 理论 上 讲 , 只 要 掌握 网 络 通信 
协议 的 信息 交互 过 程 , 就 可 以 通过 网 络 交互 重 构 实 现 对 应 协议 发 布 信息 获取 。 但 是 , 随 着 网 
络 应 用 的 逐步 深入 、 网 络 媒体 发 布 形态 的 不 断 推陈出新 ,不 同 的 网 络 媒体 信息 交互 过 程 存在 
着 极 大 差别 。 同 时 ,新 型 网 络 通信 协议 正在 不 断 得 到 应 用 ,而 部 分 网 络 通信 协议 ,尤其 是 视 / 
音频 信息 的 网 络 交 互 过 程 并 未 对 外 公开 发 布 。 

因此 ,在 通过 网 络 交 互 重 构 实现 网 络 媒体 信息 获取 过 程 中 ,需要 对 不 同 网 络 媒体 逐一 进 
行 网 络 信 息 交 互 重 构 , 其 信息 获取 技术 实现 的 工作 量 异 常 庞大 。 与 此 同时 ,对 于 网 络 交 互 过 
程 尚 处 于 保密 阶段 的 部 分 网 络 通信 协议 而 言 ,无 法 直接 通过 网 络 交互 重 构 实 现 对 应 协议 发 
布 信息 获取 。 

正 是 由 于 通过 网 络 交互 重 构 机 制 实现 媒体 信息 获取 存在 相当 程度 的 技术 局 限 性 ,因此 
在 Web 网 站 自动 化 功能 /性 能 测试 的 启发 下 ,浏览 器 模拟 技术 在 网 络 媒体 信息 获取 环节 得 
到 越 来 越 广泛 的 应 用 。 基 于 浏览 器 模拟 实现 网 络 媒体 发 布 信息 获取 的 技术 ,实现 过 程 是 利 
用 典型 的 JSSh 客户 端 向 内 徐 JSSh 服务 器 的 网 络 浏览 器 发 送 JavaScript 指令 ,指示 网 络 浏 
览 器 开展 网 页 表单 自动 填写 ,网 页 按钮 /链接 被 点 击 、 网 络 身 份 认 证 交互 、 网 页 发 布 信息 浏 
览 ,以 及 视 / 音 频 信 息 点 播 等 系列 操作 。 

在 此 基础 上 ,JSSh 客户 端 进一步 要 求 网 络 浏览 器 导出 网 页 文本 内 容 、 存 储 网 页 图 像 信 
息 ,或 在 用 于 信息 获取 的 计算 机 上 对 正在 播放 的 视 / 音 频 信息 进行 屏幕 录像 ,最 终 面向 各 种 
类 型 的 网 络 内 容 、 各 种 形态 的 网 络 媒体 实现 发 布 信息 获取 ,如 图 2-16 所 示 。 
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图 2-16 基于 浏览 器 模拟 实现 网 络 媒体 信息 获取 
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1) 内 机 JSSh 服务 器 的 Firefox 浏览 器 

MozillaFirefox 属于 典型 的 内 嵌 JSSh 服务 器 的 开源 浏览 器 , 它 将 JSSh 服务 器 作为 自 
身 的 附加 组 件 。 外 部 应 用 程序 JSSh 客户 端 可 与 Firefox、 浏 览 器 内 嵌 的 JSSh 服务 器 (默认 
侦 听 9997 端口 ) 建 立 通信 和 连接 ,并 向 其 发 送 JavaScript 指令 ,指示 Firefox 操作 当前 网 页 的 
文档 对 象 , 如 图 2-17 所 示 。 内 内 JSSh 服务 器 的 Firefox 顺序 执行 来 自 JSSh 客户 端的 
JavaScript 指令 ,其 整体 过 程 与 Firefox 解析 动态 网 页 内 的 JavaScript 脚本 片段 类 似 。 


默认 侦 听 
9997 端 口 
发 送 JavaScript 指 今 


作 当 前 网 页 文档 对 象 《内 柚 1SSh 服 务 器 
JSSh 客 
户 端 JavaScript 指 今 
执行 结 Firefox 浏 览 器 


图 2-17 JSSh 服务 器 与 客户 端 间 的 JavaSeript 指令 交互 









2) 典型 JSSh 客户 端 一 一 Firewatir 

作为 典型 的 JSSh 客户 端 , Firewatir 广泛 应 用 于 Web 网 站 功能 和 性 能 自动 化 测试 。 
Firewatir 是 基于 脚本 语言 Ruby 编写 的 ,可 通过 发 送 JavaScript 指令 指示 内 骨 JSSh 服务 器 
的 网 络 浏览 器 (例如 Mozilla Firefox) 进行 网 页 表单 填写 .按钮 /链接 单 击 ,以 及 网 页 内 容 浏 
览 等 系列 操作 。 另 外 ,Firewatir 通过 JavaScript 指令 还 可 以 方便 地 操纵 浏览 器 加 载 网 页 的 
DOM 对 象 , 从 而 导出 网 页 主体 内 容 , 实 现 网 络 媒体 信息 的 获取 。 

(1) 基于 浏览 器 模拟 实现 身份 认证 与 网 站 信息 采集 。 当 前 Web 网 站 主要 通过 填写 并 
提交 HTTP 网 页 上 的 认证 表单 ,实现 网 络 客户 端的 身份 认证 。 因 此 ,网 络 媒体 信息 获取 环 
节 可 以 通过 JSSh 客户 端 向 内 骨 JSSh 服务 器 的 Firefox 浏览 器 发 送 JavaScript 指令 ,指示 浏 
览 器 自动 填写 网 页 上 的 身份 认证 表单 ,并 单 击 相应 按钮 提交 身份 认证 请 求 。 身 份 认 证 协商 
过 程 即 身份 认证 网 络 交互 过 程 ,是 由 浏览 器 自行 处 理 的 ,整个 过 程 如 同 正在 浏览 网 络 的 用 户 
与 Web 网 站 进行 身份 认证 网 络 交 互 。 

在 身份 认证 成 功 后 ,JSSh 客户 端 继续 向 内 嵌 JSSh 服务 器 发 送 JavaScript 指令 ,指示 浏 
览 器 加 载 身 份 认证 网 站 发 布 信息 。 浏 览 器 自行 完成 用 于 发 布 信息 请 求 的 网 络 交互 ,并 告知 
JSSh 客户 端 网 站 发 布 页 面 加 载 完成 。 在 此 基础 上 ,JSSh 客户 端 指示 浏览 器 导出 当前 加 载 
网 页 主体 内 容 , 并 对 网 页 内 由 URL 逐一 进行 单 击 浏览 与 内 容 导 出 ,最 终 完成 对 于 身份 认证 
网 站 发 布 信息 的 获取 工作 。 

Q@ 身份 认证 表单 自动 填写 。 在 实现 HTTP 认证 网 页 身份 认证 表单 的 自动 填写 前 , 首 
先 需 要 识别 身份 认证 表单 元 素 , 即 身份 认证 表单 所 涉及 的 HTTP 对 象 , 用 于 用 户 名 、 密 码 信 
息 输入 的 文本 框 对 象 类 型 与 对 象 名 称 。 在 此 基础 上 .可 以 使 用 已 在 目标 媒体 上 申请 得 到 的 
用 户 名 、 密 码 信息 ,根据 脚本 语言 Ruby 的 语法 格式 ,构建 并 向 JSSh 服务 器 发 送 用 于 身份 认 
证 表单 自动 填写 的 JavaScript 指令 ,指示 内 骨 JSSh 服务 器 的 网 络 浏览 器 ,从 而 完成 身份 认 
证 表单 的 自动 填写 。 

在 基于 浏览 器 模拟 实现 身份 认证 表单 自动 填写 的 技术 实现 过 程 中 ,只 需 根据 不 同 网 络 
媒体 认证 表单 元 素 的 区 别 , 构 建 用 于 认证 表单 自动 填写 的 JavaScript 指令 即 可 。 在 指示 网 
络 浏览 器 完成 认证 表单 自动 填写 后 ,身份 认证 网 络 交互 过 程 全 部 由 浏览 器 自行 完成 。 这 与 


第 2 章 网 络 信息 的 获取 31 





通过 网 络 交互 重 构 实 现 身 份 认证 与 网 站 发 布 信息 获取 期 间 , 需 要 针对 不 同 网 络 媒体 重 构 及 
不 同 网 络 交互 过 程 相 比 , 功 能 实现 的 复杂 度 显著 降低 ,技术 方案 的 普 适 性 明显 提高 。 

@ 身份 认证 协商 与 发 布 信息 获取 。 在 JSSh 客户 端 完成 身份 认证 表单 自动 填写 与 提交 
后 ,网 络 浏览 器 转向 与 Web 网 站 进行 身份 认证 协商 ,这 期 间 不 再 需要 JSSh 客户 端 继续 参 
与 。 在 浏览 器 成 功 完成 网 络 身份 认证 后 ,JSSh 客户 端 继续 指示 JSSh 服务 器 加 载 身份 认证 
与 网 站 发 布 信息 ,并 进一步 通过 JavaScript 指令 操作 所 加 载 网 页 的 文档 对 象 , 提取 网 页 主体 
内 容 与 网 页 内 骨 URL 信息 。 内 由 JSSh 服务 器 的 浏览 器 在 JSSh 客户 端的 指示 下 ,逐一 浏 
览 并 导出 当前 网 页 内 幅 URL 所 对 应 的 网 页 主体 内 容 , 最 终 完 成 身份 认证 网 站 发 布 信息 获 
取 工作 ,如 图 2-18 所 示 。 
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2-18 ”基于 浏览 器 模拟 实现 身份 认证 协商 与 发 布 信息 获取 


(2) 基于 浏览 器 模拟 实现 动态 网 页 信息 获取 。 采 用 浏览 器 模拟 技术 进行 动态 网 页 发 布 
信息 获取 ,首先 需要 由 JSSh 客户 端 通过 JavaScript 指令 指示 内 机 JSSh 服务 器 的 网 络 浏览 
器 加 载 动态 网 页 发 布 信息 。 在 获得 网 络 媒体 关于 动态 网 页 的 响应 信息 后 ,浏览 器 自动 完成 
对 于 动态 网 页 内 各 类 脚本 片段 的 解析 工作 ,从 而 获得 动态 网 页 所 对 应 的 静态 网 页 形态 。 该 
阶段 不 再 只 是 针对 具体 的 脚本 语言 (例如 JavaScript) 进 行动 态 脚 本 片段 解析 。 凡 是 能 在 通 
用 浏览 器 中 正常 浏览 的 动态 网 页 ,其 包含 的 任何 脚本 片段 都 可 以 基于 浏览 器 模拟 技术 实现 
动态 脚本 解析 。 

在 此 基础 上 ,浏览 器 进一步 通过 自身 包含 的 网 页 排版 引擎 Gecko 生成 静态 网 页 的 
HTML DOM 树 。 然 后 JSSh 客户 端 可 以 通过 JavaScript 指令 操作 静态 网 页 的 HTML 
DOM 树 ,逐一 导出 静态 网 页 及 其 内 嵌 URL 所 对 应 的 发 布 内 容 , 最 终 完 成 动态 网 页 发 布 信 
息 的 获取 工作 ,如 图 2-19 所 示 。 

在 通过 Rhino 实现 JavaScript 动态 网 页 发 布 信息 的 获取 时 .首先 需要 基于 网 络 交 互 重 
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图 2-19 基于 浏览 器 模拟 实现 动态 网 页 发 布 信息 的 获取 


构 获 取 动 态 网 页 发 布 内 容 , 并 进一步 遍历 动态 网 页 HTML DOM 树 , 提 取 网 页 所 含 
JavaScript 脚本 片段 。 在 对 JavaScript 脚本 片段 中 的 HTML DOM 对 象 实现 本 地 创建 后 ， 
Rhino 按照 动态 网 页 加 载 过 程 顺序 执行 JavaScript 脚本 片段 ,然后 输出 动态 网 页 所 对 应 的 
静态 网 页 形态 ,最 终 实 现 动 态 脚 本 解析 。 

与 其 对 应 ,在 基于 浏览 器 模拟 实现 动态 网 页 信息 获取 的 过 程 中 ,动态 网 页 发 布 内 容 获取 
与 动态 网 页 脚本 片段 解析 工作 全 由 浏览 器 自行 完成 。JSSh 客户 端 只 是 通过 JavaScript 指 
令 指 示 网 络 浏览 器 加 载 动态 网 页 ,并 在 JSSh 服务 器 告知 与 所 请 求 的 动态 网 页 对 应 的 静态 
网 页 形态 加 载 成 功 后 ,继续 通过 JavaScript 指令 操作 当前 网 页 HTML DOM 树 获取 动态 网 
页 发 布 信息 。 整 体 过 程 与 JSSh 客户 端 指示 浏览 器 加 载 静态 网 页 并 无 实质 区 别 。 

(3) 利用 浏览 器 模拟 进行 网 络 媒体 信息 获取 的 技术 优势 。 一 方面 ,与 通过 网 络 交互 重 
构 实 现 网 络 媒体 信息 获取 不 同 , 在 基于 浏览 器 模拟 进行 网 络 媒体 信息 获取 过 程 中 ,与 身份 认 
证 ,信息 请 求 相关 的 网 络 交互 过 程 ,与 脚本 解析 、HTML DOM 树 生成 相关 的 网 页 处 理 过 
程 ,全 都 是 在 JSSh 客户 端的 指示 下 由 内 机 JSSh 服务 器 的 网 络 浏览 器 自行 完成 。 网 络 媒体 
信息 获取 环节 不 再 需要 针对 不 同 网 络 媒 体 , 重 复 实现 网 络 交 互 重 构 机 制 , 从 而 有 效 降 低 了 网 
络 媒 体 信息 获取 工作 的 复杂 度 , 显 著 提高 了 网 络 媒体 信息 获取 机 制 的 普 适 性 。 

另 一 方面 ,在 面 对 网 络 交互 过 程 极为 复杂 ,甚至 网 络 交互 方式 并 未 对 外 公开 的 视 / 音 频 
信息 时 ,可 以 基于 浏览 器 模拟 机 制 实现 视 / 音 频 内 容 自动 点 播 , 并 对 正在 播放 的 视 / 音 频 流 进 
行 屏 幕 录像 ,最 终 完 成 视 / 音 频 信息 的 统一 获取 。 在 这 种 情况 下 ,所 有 能 够 通过 网 络 浏览 器 
得 到 的 各 种 形态 ,各 个 类 型 的 互联 网 信息 ,都 可 以 采用 浏览 器 模拟 技术 实现 网 络 媒体 发 布 信 
息 的 获取 ,这 也 是 本 书 将 这 类 互联 网 公开 传播 信息 统称 为 网 络 媒体 信息 的 根本 原因 。 


2.3 网 络 通信 信息 的 获取 


随 着 计算 机 网 络 的 快速 发 展 , 越 来 越 多 的 信息 通过 计算 机 网 络 进行 传输 ,为 了 有 效 地 对 
计算 机 网 络 进行 管理 ,对 计算 机 网 络 的 性 能 进行 分 析 , 快 速 解 决 计算 机 网 络 的 故障 ,发 现 潜 
在 的 安全 威胁 ,需要 高 效 的 网 络 管理 和 网 络 分 析 工 具 。 作 为 网 络 管理 和 网 络 分 析 的 基础 和 
核心 技术 ,网 络 通信 信息 捕获 技术 得 到 了 充分 的 研究 和 发 展 。 
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2.3.1 网 络 通 信 信 息 获取 的 一 般 流程 


网 络 通信 信息 捕获 就 是 以 通过 物理 接 入 网 络 的 方式 在 网 络 的 传输 信道 上 获取 数据 。 不 
管 是 无 线 网 络 还 是 有 线 网 络 , 只 要 能 够 接 入 网 络 ,就 可 以 通过 技术 手段 获取 网 络 中 的 数据 。 
网 络 通信 信息 捕获 的 基本 思想 就 是 利用 网 络 传 输 信道 获取 网 络 数据 。 以 太 网 中 利用 载波 监 
听 多 路 访问 /冲突 检测 方法 (Carrier Sense Multiple Access/Collision Detection, CSMA/ 
CD) 和 共享 媒体 的 方式 ,保证 总 线 上 挂 接 的 所 有 节点 都 有 机 会 接收 到 任 一 个 节点 发 送 的 信 
息 , 而 以 太 网 默认 的 多 向 地 址 访问 的 工作 原理 又 使 每 个 节点 只 能 接收 目的 地 址 指向 它 的 数 
据 信 息 。 通 过 设置 以 太 网 网 络 适 配器 改变 其 工作 模式 ,可 以 实现 数据 捕获 。 

广播 式 局 域 网 是 共享 通信 介质 的 ,而 且 采 用 广播 机 制 使 得 在 这 种 环境 下 监听 非常 方便 。 
仅仅 需要 将 某 一 台 主 机 的 网 络 适配器 设置 成 混杂 模式 ,就 可 以 实现 对 整个 网 段 的 监听 。 以 
太 网 采用 广播 机 制 ,在 物理 线路 上 传输 的 数据 包 能 到 达 链 接 在 集线器 的 每 一 主机 。 当 数字 
信号 到 达 一 台 主 机 的 网 络 接口 时 ,正常 状态 下 网 络 接口 对 读 和 数据 帧 进行 检查 ,如果 采用 数 
据 帧 中 携带 的 物理 地 址 是 自己 的 或 者 物理 地 址 是 广播 地 址 ,那么 就 会 将 数据 帧 交 给 上 层 服 
务 软件 。 如 果 通 过 程序 将 网 络 适配器 的 工作 模式 设置 为 “混杂 模式 ”, 那 么 网 络 适 配器 将 接 
收 所 有 流 经 它 的 数据 帧 。 

在 局 域 网 中 采用 交换 机 ,不 但 可 以 提升 网 络 性 能 ,还 能 解决 一 些 集线器 有 关 的 安全 问 
题 ,其 中 包括 防止 数据 被 捕获 。 交 换 机 不 是 采用 端口 广播 的 方式 ,而 是 通过 ARP 缓存 来 决 
定数 据 包 传 输 到 哪个 端口 上 。 因 此 ,在 交换 网 络 上 ,即便 设置 网 络 适配器 为 混杂 模式 ,也 不 
能 进行 数据 捕获 。 

在 交换 环境 下 有 两 种 方式 可 以 实现 数据 的 捕获 。 一 种 方式 是 通过 端口 镜像 来 捕获 整个 
局 域 网 的 数据 。 所 谓 端口 镜像 ,就 是 可 以 将 一 个 或 多 个 端口 的 传输 数据 按 要 求 复制 到 指定 
监控 端口 分 析 和 保存 。 一 般 的 交换 机 都 具有 端口 镜像 的 功能 。 另 外 一 种 方式 是 攻击 交换 机 
以 得 到 所 有 的 数据 包 ,主要 方法 有 MAC Flooding 攻击 和 ARP 包 欺 骗 。 

(1) MAC Flooding 攻击 。 交 换 机 维护 着 一 个 动态 的 MAC 缓存 ,实际 上 是 交换 机 端口 
和 MAC 地 址 的 对 应 表 。 这 个 表 开 始 是 空 的 ,其 中 间 记 录 是 交换 机 从 来 往 数据 帧 中 学 习 得 
来 的 。 交 换 机 通过 这 个 地 址 映射 表 才 知道 把 进来 的 数据 帧 转发 到 哪个 端口 ,而 用 于 维护 这 
个 表 的 内 存 是 有 限 的 。 某 些 交 换 机 , 当 受 到 大 量 含 有 错误 的 MAC 地 址 的 数据 帧 攻击 时 就 
会 溢出 ,退回 到 Hub 的 广播 式 工作 方式 ,这 样 就 可 以 达到 数据 捕获 的 目的 。 

(2) ARP 包 欺 骗 。 在 发 送 以 太 网 数据 包 时 要 根据 目的 IP 地址 查询 ARP 缓存 表 , 取 得 
目的 MAC 地 址 ,如果 本 地 查询 不 到 就 要 向 网 络 中 广播 目的 ARP 请 求 包 , 通 过 ARP Replay 
刷新 本 机 的 IP-MAC 对 应 表 。 因 此 攻击 者 向 目标 机 发 送 正常 的 ARP Reply 包 , 但 将 网 关 的 
IP 地 址 映射 为 自身 的 MAC 地 址 ,就 可 以 获得 全 部 的 网 络 数据 包 。 

基于 IEEE 802. 11b 的 WLAN 采用 的 是 带 冲突 避免 的 载波 侦 听 多 路 访问 协议 
(CSMA/CA) 来 访问 介质 ,与 有 线 局 域 网 中 的 CSMA/CD 一 样 ,使 用 的 也 是 广播 机 制 ,而 且 
无 线 网 络 适配器 也 有 混杂 模式 。 处 于 混杂 模式 的 无 线 网 络 适配器 除了 可 以 接收 数据 包 外 ， 
同时 还 可 以 发 送 数 据 包 ,但 是 和 有 限 局 域 网 不 同 的 是 , 设 为 混杂 模式 的 无 线 网 络 适配器 捕获 
的 只 是 IEEE 802. 11b 中 的 以 太 帧 ,而 忽略 了 802. 11b 的 帧 头 ,这 对 于 后 续 的 分 析 是 很 不 利 
的 。 大 多 数 无 线 网 络 适配器 除了 正常 的 工作 模式 和 混杂 模式 以 外 ,还 有 一 种 射频 监听 工作 
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模式 ,工作 在 这 种 模式 下 的 无 线 网 络 适配器 只 能 接收 数据 而 不 能 发 送 数据 。 当 无 线 网 络 适 
配器 工作 在 射频 监听 模式 时 ,就 能 捕获 到 其 所 在 的 基本 服务 集 (Basic Service Set,BSS) 中 的 
所 有 数据 包 。 所 以 ,在 进行 无 线 网 络 环境 下 的 数据 捕获 时 ,要 把 无 线 网 络 适 配器 设置 为 射频 
监听 模式 。 需 要 指出 的 是 ,由 于 芯片 类 型 和 驱动 程序 的 不 同 , 不 同 的 无 线 网 络 适 配器 进行 数 
据 捕获 的 方法 不 一 定 相同 。 


2.3.2 网 络 通信 信息 获取 的 分 类 


使 用 特定 客户 端 进行 网 络 通信 时 所 传输 的 互联 网 信息 属于 网 络 通信 信息 ,这 类 信息 包 
含 使 用 客户 端 软件 (例如 MicrosoftOutlook、FoxMail 等 ) 收 发 电子 邮件 ,基于 即时 通信 软件 
进行 网 上 聊天 ,采用 金融 机 构 发 布 的 客户 端 进行 网 上 财经 交易 等 。 与 网 络 媒体 以 广播 方式 
向 互联 网 客户 端 传播 信息 不 同 , 多 数 网 络 通信 客户 端 以 对 等 的 、 点 对 点 的 方式 进行 互联 网 通 
信 交 互 。 因 此 在 面向 网 络 通信 信息 进行 互联 网 交互 内 容 获 取 时 ,无 法 直接 借鉴 之 前 提 到 的 
网 络 媒体 信息 获取 方法 进行 网 络 通信 信息 获取 。 

当前 网 络 通信 信息 获取 过 程 主要 涉及 网 络 通信 信息 镜像 ,网络 交互 数据 重组 .通信 协议 
数据 恢复 、 网 络 通信 信息 存储 等 技术 环节 。 网 络 通信 信息 获取 主要 通过 局 域 网 总 线 数据 侦 
听 , 城 域 网 (例如 数字 社区 、 拥 有 互联 网 接 入 的 公寓 区 等 ) 三 层 交 换 机 通信 端口 数据 导出 的 方 
式 实现 包含 网 络 通信 信息 在 内 的 互联 网 交互 数据 镜像 。 

在 此 基础 上 ,网 络 通信 信息 获取 机 制 选择 在 OSIVRM 网 络 层 针 对 具体 的 互联 网 客户 端 
实现 特定 协议 的 网 络 通信 数据 包 重 组 。 对 于 明文 传输 且 公 开发 布 协议 交互 过 程 的 网 络 通信 
协议 ,信息 获取 机 制 通过 协议 数据 恢复 获得 通信 交互 内 容 , 并 将 其 存 人 网 络 通信 信息 库 , 实 
现 网 络 通信 信息 获取 ,如 图 2-20 所 示 。 不 过 ,在 网 络 通信 信息 通过 密 文 传输 的 情况 下 ,或 者 
部 分 网 络 通信 协议 尚未 公开 协议 交互 过 程 时 ,网 络 信息 获取 环节 无 法 通过 协议 数据 恢复 获 
得 网 络 通信 信息 。 

需要 特别 说 明 的 是 ,在 使 用 特定 客户 端 进行 网 络 通信 交互 时 ,所 传输 的 网 络 信息 并 不 算 
是 互联 网 公开 传播 信息 。 因 此 在 没有 得 到 网 络 通信 当事人 或 网 络 监管 部 门 授 权 的 情况 下 ， 
本 书 并 不 建议 面向 属于 个 人 隐私 范畴 的 网 络 通信 信息 进行 内 容 镜像 与 信息 获取 尝试 。 

































互联 网 通信 信息 
电子 邮件 | 即时 通信 | … 
| 网 络 数据 重组 Ce 
局 域 网 集线器 总 线 侦 听 “| / 
协议 数据 恢复 络 通信 信息 库 
城 城 网 交换 机 数据 镜像 网 站 浊 可 作风 


图 2-20 网络 通 信 信 息 获 取 流 程 


2.3.3 网 络 通信 信息 获取 的 难点 分 析 


网 络 信息 自动 采集 现 阶段 存在 的 主要 难点 是 互联 网 网 络 信息 虽然 资源 丰富 ,但 分 散 、 缺 
乏 一 个 有 效 的 一 体 化 管理 。 开 放 的 互联 网 是 全 球 性 分 布 的 结构 网 络 , 它 庞大 的 信息 资源 存 
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储 在 世界 各 地 的 服务 器 与 主机 中 ,因此 决定 了 信息 资源 比较 分 散 的 特征 。 我 国信 息 传输 速 
率 较 低 的 现象 十 分 严重 ,虽然 近年 来 我 国 各 大 网 络 服务 平台 、 各 级 运营 商 的 网 络 信号 通路 宽 
度 大 幅度 改善 ,然而 这 样 的 提升 速度 却 远 远 赶不上 我 国 互联 网 网 络 高 速 发 展 的 需求 。 而 且 
我 国 各 大 互联 网 络 机 构 之 间 并 没有 实现 及 时 有 效 的 联通 ,这 也 给 国内 网 络 用 户 带 来 了 很 大 
的 不 便 。 当 前 国内 各 大 互联 网 公司 的 网 络 通信 费用 虽然 呈现 逐步 下 降 的 态势 ,但 和 发 达 国 
家 相 比 始终 还 是 偏 高 。 再 者 ,与 全 球 互联 网 网 络 快速 发 展现 状 形成 鲜明 对 比 的 是 ,目前 还 是 
没有 找到 一 种 有 效 的 方法 对 网 络 资源 进行 管理 。 目 前 很 多 检索 软件 单单 是 把 手工 编排 好 的 
资料 主题 目录 跟 计 算 机 检索 软件 里 所 提供 的 关键 词 查询 进行 简单 结合 ,发挥 两 者 的 集成 优 
势 , 但 是 由 于 互联 网 络 的 包容 信息 范围 和 数量 是 无 限 扩大 的 ,所 以 始终 没有 办 法 建立 统一 的 
信息 管理 和 组 织 机 制 ,在 现 有 的 任何 智能 检索 工具 中 都 没有 办 法 实现 对 网 络 信息 综合 全 面 
的 检索 。 虽 然 目 前 的 信息 采集 技术 已 经 相对 成 熟化 ,网 络 上 已 经 有 很 多 种 技术 方案 可 以 帮 
助 用 户 解决 网 络 信息 自动 采集 方面 的 需求 。 但 是 现在 仍然 有 4 个 很 突出 的 问题 摆 在 面前 ， 
阻碍 网 络 信息 自动 采集 技术 的 持续 发 展 : 其 一 是 数据 爆发 式 增 长 所 造成 的 狂潮 困扰 着 用 
户 , 从 中 提取 有 用 信息 仍然 是 一 大 难题 ; 其 二 是 开放 性 、 动 态 性 的 互联 网 信息 ,用 户 如 果 要 
快捷 地 获取 信息 ,仍然 存在 一 定 难度 ; 其 三 是 由 于 网 络 上 缺乏 有 效 监管 ,人 人 都 可 以 发 布 信 
息 , 很 多 情况 下 难以 保证 信息 的 真实 可 靠 ; 其 四 是 安全 性 难以 保证 , 道 高 一 尺 魔 高 一 丈 , 黑 
客 们 很 容易 被 错误 的 信息 混淆 视听 。 


2.3.4 Linux 和 Windows 环境 下 的 通信 信息 获取 


在 了 解 以 太 网 不 同 环境 下 进行 数据 捕获 的 原理 后 ,就 能 够 通过 系统 提供 的 网 络 通信 信 
息 捕 获 引擎 开发 出 特定 的 网 络 通信 信息 捕获 软件 。 网 络 通信 信息 捕获 引擎 的 处 理 流 程 在 不 
同 的 操作 系统 中 较为 类 似 ,只 是 局 部 细节 方面 有 些 不 同 。 由 于 数据 捕获 的 处 理 要 经 过 网 络 
适配器 、 内 核 过 滤器 和 应 用 程序 的 流程 ,因此 都 涉及 内 核 态 和 用 户 态 的 处 理 。 

在 数据 捕获 中 ,用 户 可 能 只 需要 某 些 类 型 的 数据 包 , 那 么 针对 数据 包 类 型 进行 过 滤 设置 
就 可 以 很 大 程度 提高 处 理 能 力 和 效率 ,因此 数据 的 过 滤 处 理 就 十 分 重要 。 数 据 的 过 滤 规 则 
一 般 根据 用 户 设 定 的 规则 ,在 内 核 态 生成 过 滤 指 令 。 由 于 数据 的 过 滤 一 般 发 生 在 网 络 适 配 
器 捕获 数据 之 后 ,用 户 获得 数据 之 前 ,因此 数据 包 过 滤器 和 处 理 就 成 为 数据 捕获 技术 的 关键 
所 在 。 数 据 包 过 滤器 和 捕获 器 紧密 关联 ,构成 网 络 通信 信息 捕获 引擎 ,其 中 比较 突出 的 有 
BPF(Berkeley Packet Filter) 和 NPF(Network Packet Filter) 。 

1. UNIX 和 Linux 系统 

BPF 采用 Linux 内 核 下 加 载 模块 的 方式 ,实现 数据 包 信息 的 俘获 。 它 可 只 捕获 用 户 需 
要 分 析 统 计 的 数据 包 。 在 Linux 2.4 和 Linux 2.6 版 本 中 ,提供 了 Netfilter 框架 ,可 通过 注 
册 钧 子 函数 实现 数据 包 的 捕获 。BPF 框架 如 图 2-21 所 示 , 系统 由 三 部 分 组 成 :; Network 
Tap、BPF 和 Libpcap, 分 别 工作 在 物理 接口 层 、 内 核 态 和 用 户 态 。 其 中 Network Tap 负责 
获取 物理 接口 层 中 的 所 有 数据 包 ; 工作 在 内 核 态 的 BPF 则 利用 过 滤 条 件 匹 配 所 有 由 
Network Tap 传 来 的 数据 包 , 若 匹配 成 功 , 则 将 其 从 网 络 适 配器 驱动 的 缓冲 区 中 复制 到 核心 
缓冲 区 ; 工作 在 用 户 态 的 Libpcap 负责 处 理 用 户 应 用 程序 和 BPF 的 接口 。 

BPF 过 滤器 的 过 滤 功 能 是 通过 虚拟 机 (Pseudo Machine) 执行 过 滤 程 序 来 实现 的 。 过 
滤 程 序 (EFilter Program) 实 际 上 是 一 组 过 滤 规 则 用 户 定义 ,以 决定 是 否 接收 数据 包 和 需要 接 
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收 多 少数 据 。BPF 的 过 滤 过 程 如 下 : 当 数据 包 到 达 网 络 接口 时 , 链 路 以 驱动 程序 将 其 提交 
到 系统 协议 栈 ; 如 果 BPF 正在 此 接口 监听 , 则 驱动 程序 将 首先 调用 BPF,BPF 将 数据 包 发 
送 给 过 滤器 ,过 滤器 对 数据 包 进 行 过 滤 ,并 将 数据 提交 给 过 滤器 关联 的 上 层 应 用 程序 ; 然后 
链 路 层 驱动 将 重新 取得 控制 权 , 将 数据 包 提 交 给 上 层 的 系统 协议 栈 处 理 。BPF 是 内 嵌 于 操 
作 系 统 中 的 , 它 给 用 户 提供 Libpcap 开发 动态 链接 库 ,Libpcap 隐藏 了 用 户 程 序 和 操作 系统 
内 核 交 互 的 细节 。 主 要 完成 如 下 工作 : 

。 向 用 户 程 序 提供 一 套 功 能 强大 的 抽象 接口 ; 

。 根据 用 户 要 求生 成 过 滤 指 令 ; 

。 管理 用 户 缓冲 区 (User Buffer) ; 

。 负责 用 户 程 序 和 内 核 的 交互 。 
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2-21 BPF 整体 框架 图 


2. Windows 系统 

NPF 作为 外 在 Windows 环境 下 的 演化 版 ,继承 了 BPF 的 过 滤器 ,两 级 缓冲 (核心 和 用 
户 ) 以 及 用 户 级 的 一 些 函 数 库 ,NPF 的 整体 结构 如 图 2-22 所 示 。 

NPF 主要 用 于 Windows 系统 平台 ,但 Windows 系统 没有 像 UNIX 系统 一 样 将 捕获 过 
滤 机 制 内 置 于 操作 系统 ,所 以 需要 安装 NPF 系统 包 。WmPcap 就 是 这 样 的 驱动 安装 包 , 该 
安装 包 在 系统 中 安装 了 三 个 文件 : 高 级 系统 无 关 库 (Wpcap. dll) ,低级 动态 链接 库 (Packet. 
dll) 和 内 核 级 的 数据 包 监 听 设 备 驱动 程序 (Npf. sys/ Npf. vxd)。 

Winpcap(Windows Packet Capture) 是 Windows 平台 下 一 个 免费 的 网 络 访问 系统 ,用 
于 为 Win32 应 用 程序 提供 访问 网 络 底层 的 能 力 。WinPcap 可 以 在 以 下 地 址 下 载 : http:// 
www. winpcap. org/install/ default. htm。 WinPcap 的 安装 过 程 比较 简单 ,按照 提示 一 步 一 
步 安 装 即 可 。 

WinPcap 提供 了 2 个 用 于 包 捕 获 和 过 滤 的 动态 链接 库 : Packet. dll 和 Wpcap. dll。 
Packet. dll 在 Win32 平台 上 提供 与 NPF 的 一 个 通用 接口 .基于 Packet. dll 的 应 用 程序 可 以 
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图 2-22 ”NPF 整体 结构 
Packet. dll 还 有 几 个 附加 功能 , 它 可 用 


在 没有 重新 编译 的 情况 下 用 于 不 同 的 Win32 平台 
来 取得 适配器 名 称 \ 动 态 驱 动 器 加 载 和 获得 主机 掩 码 及 以 太 网 冲突 次 数 等 。Wpcap. dll 是 
































通过 调用 Packet. dll 提供 的 函数 生成 的 , 它 包括 过 有 
滤器 生成 等 一 系列 可 以 被 用 户 级 调用 的 高 级 函数 ， [2 
另外 还 有 诸如 数据 包 统计 及 发 送 功能 。Wpcap. dll | 
的 设计 目标 是 提供 一 套 可 移植 并 且 系统 无 关 的 捕 | PP 
获 API 集 合 ,因此 它 不 可 能 将 驱动 所 提供 的 全 部 | 
pcap_loop pcap_read 





CallBacak 





功能 都 输出 来 。 所 以 在 有 些 情况 下 ,需要 使 用 
Packet. dll 提供 的 特殊 函数 来 满足 对 系统 开发 的 更 


使 用 Wpcap. dll 接口 的 监听 程序 流程 如 图 2-23 
图 2-23 Wpeap 接口 监听 的 程序 流程 


所 示 , 其 中 用 户 对 数据 包 的 检查 或 者 处 理 程序 可 以 
通过 CallBack 调用 。 
下 面 将 分 别 介绍 该 流程 中 各 个 阶段 中 用 到 的 关键 pcap 库 函 数 。 
(1) 选择 监听 网 络 接口 。 可 以 调用 pcap_lookupdev 郴 数 寻找 本 机 网 络 接口 ,pcap 
lookupdev 函数 原型 如 下 : 


char * pcap_lookupdev ( char * errbuf ) 


函数 返回 网 络 接 口 的 指针 ,也 可 以 调用 pcap_freealldevs 来 完成 网 络 设备 的 选择 功能 。 
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(2) 建立 监听 会 话 。 实 现 该 功能 一 般 调用 pcap_open_live 函数 ,其 原型 如 下 : 
pcap_t * pcap_open live (char* device, int snaplen, int promisc, int to_ms, char* ebuf ) 


该 函数 中 一 个 重要 的 参数 就 是 promisc, 它 用 于 将 网 卡 设置 为 混杂 模式 。 该 函数 调用 
成 功 则 返回 监听 会 话 句柄 。 

(3) 编辑 过 滤器 。 在 有 了 活动 的 监听 会 话 句柄 后 ,可 以 开始 设置 过 滤器 ,通常 使 用 pcap 
-complie 函数 将 字符 串 形式 的 过 滤 语 句 编译 成 二 进 制 形式 存储 在 bpf_program 结构 中 ,其 
函数 原型 如 下 : 

int pcap_compile ( pcap 七 * p，struct bpf_progrram x* fp, char * str, int optimize, bpf_u_int32 

netmask ) . 

其 中 参数 str 即 为 过 滤 语 句 的 字符 串 指针 ,fp 用 于 存放 编译 后 的 BPF 结构 体 。 

(4) 设置 过 滤器 。 在 编译 过 滤器 后 必须 调用 pcap_setfilter 函数 设置 内 核 过 滤器 方 能 使 
之 生效 ,其 原型 如 下 : 


int pcap_setfilter ( pcap 七 * p,struct bpf_program * fp ). 


(5) 捕获 数据 包 。 捕 获 数据 包 一 般 调 用 pcap_loop 函数 或 者 pcap_dispatch 函数 ,pcap__ 
loop 的 原型 为 ; 


int pcap_loop ( pcap.t *p, int cnt,pcap_handler callback,u_char * user ). 


callback 回调 函数 在 捕获 一 个 包 后 自动 调用 ,在 该 函数 中 可 以 对 数据 进行 下 一 步 的 
处 理 。 

网 络 数据 包 捕 获 与 分 析 系 统 中 , 抓 包 模块 的 主要 流程 就 是 调用 WinPcap 提供 的 函数 库 
实现 网 卡 混杂 模式 的 设置 ,并 且 从 链 路 层 直 接 截获 数据 存储 到 硬盘 ,并 实时 显示 所 捕获 数据 
包 中 各 种 协议 类 型 数据 包 的 数量 和 比例 ,具体 介绍 如 下 。 

首先 , 抓 包 模 块 对 网 卡 设置 对 话 框 进行 初始 化 。 通 过 调用 pcap_findalldevs() 函数 来 获 
取 本 机 上 的 以 太 网 卡 列表 ,初始 化 时 默认 为 选中 第 一 块 网 卡 。 当 用 户 改变 所 选 的 网 卡 时 , 设 
备 描述 信息 相应 更 新 。 为 了 不 影响 捕获 的 速度 ,在 捕获 数据 时 ,不 进行 数据 协议 的 实时 分 析 
和 显示 ,所 以 采用 在 捕获 的 数据 存储 到 硬盘 上 的 临时 文件 中 ,在 捕获 结束 时 再 进行 离线 的 分 
析 。 因 此 在 选择 网 卡 的 同时 ,需要 设置 临时 文件 的 路 径 ,默认 的 存储 路 径 为 C 盘 TEMP 文 
件 夹 ,以 . pcap 为 文件 后 缀 。 

其 次 , 抓 包 开始 时 ,创建 并 运行 抓 包 工作 线程 PcapThread(), 同 时 打开 统计 对 话 框 ,对 
获取 的 数据 包 进 行 分 类 统计 。 抓 包工 作 线 程 PcapThread() 首 先 要 调用 pcap_open_live() 气 
数 来 打开 要 捕获 的 网 络 适 配器 ,设置 网 卡 为 混杂 模式 ,并 返回 监听 会 话 句柄 。 如 需要 进行 在 
线 过 滤 , 则 通过 调用 过 滤 设 置 函数 来 进行 。 在 调用 回调 函数 开始 抓 包 之 前 ,调用 WinPcap 
提供 的 pcap_dump_open() 函 数 来 打开 一 个 文件 ,用 来 暂时 存放 捕获 的 数据 ,最 后 调用 pcap 
_loop ( adhandle, 0, packet_bandler, (unsigned char * ) dumpfile ) 函 数 , 以 回调 的 方式 开 
始 循环 抓 包 , 其 中 参数 packet_bandle 为 回调 函数 。 在 回调 函数 中 主要 完成 两 个 工作 : 第 一 
是 调用 WinPcap 提供 的 函数 pcap_dump() ,将 捕获 的 数据 存储 到 临时 文件 里 ; 第 二 是 简单 
分 析 数 据 的 协议 类 型 ,向 统计 窗口 提供 数据 。 
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最 后 , 抓 包 结束 ,调用 列表 视图 显示 模块 ,显示 捕获 数据 包 的 摘要 信息 。 
系统 的 运行 界面 如 图 2-24 所 示 。 





2-24 抓 包 程序 运行 界面 


2.4 本 章 小 结 


随 着 网 络 通信 应 用 的 不 断 普及 ,互联 网 已 经 成 为 信息 发 布 的 第 一 大 平台 。 本 章 将 互联 
网 信息 分 为 网 络 媒体 信息 和 网 络 通信 信息 两 大 类 型 ,并 针对 这 些 类 型 信息 的 获取 原理 进行 
一 般 性 介绍 ,包括 信息 获取 的 一 般 技术 及 流程 。 网 络 信息 内 容 获 取 是 网 络 信息 内 容 安全 研 
究 的 基础 ,为 后 续 研 究 提 供 了 原始 素材 。 通 过 本 章 学 习 , 可 以 掌握 网 络 信息 内 容 获取 的 多 种 
方法 和 手段 。 


习 题 


. 简 述 互联 网 信息 分 类 。 

. 简要 描述 网 络 媒体 信息 获取 的 一 般 流 程 。 

. 描述 基于 浏览 器 模拟 技术 进行 网 络 媒体 信息 获取 的 过 程 。 
.简要 说 明 网 络 通信 信息 获取 方案 。 

. 数据 包 捕 获 技 术 的 核心 是 什么 ? 


am 性 
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3.1 网 络 信息 内 容 预 处 理 概述 


计算 机 和 Internet 的 普及 , 带 来 了 现代 社会 的 信息 爆炸 ,每 天 都 会 有 海量 的 信息 需要 处 
理 , 信 息 的 存在 方式 和 形式 可 以 归纳 为 四 个 “多 ”: 多 媒体 、 多 语言 .多 文 种 、 多 格式 。 多 媒体 
是 指 信息 存在 的 媒体 多 种 多 样 ,包括 文本 、 声 音 、 视 频 等 ; 多 语言 是 指 自然 语言 信息 可 以 是 
多 种 语言 ; 多 文 种 是 指数 字 化 的 信息 存放 在 不 同类 型 的 文件 中 ; 多 格式 是 指 在 同一 种 文件 
类 型 中 ,相同 的 信息 可 以 以 多 种 格式 存放 。 原 始 的 网 络 信息 内 容 格 式 一 般 较 为 多 样 化 ,在 进 
行内 容 分 析 前 ,需要 对 其 进行 预 处 理 。 

在 众多 的 网 络 信息 内 容 中 ,文本 信息 又 占 了 很 大 的 比重 。 文 本 信息 是 指 用 文本 或 带 有 
格式 标志 信息 的 文本 来 存放 的 信息 ,如 纯 文本 文件 .HTML 文件 及 各 种 字 处 理 器 产生 的 文 
件 等 ,其 中 又 有 自由 文本 (Free Text) 和 自然 语言 文本 (Natural Language Text) 之 分 。 自 由 
文本 是 指 任何 以 文本 形式 存在 的 信息 ,包括 程序 源 代码 、 数 据 等 ; 自然 语言 文本 则 是 指 以 文 
本 形式 存在 的 \ 主 要 是 自然 语言 书写 的 信息 。 自 然 语言 文本 还 可 以 由 多 种 语言 书写 。 以 下 
约定 ,如 果 不 作 特别 的 说 明 , 本 书 所 说 的 文本 是 指 中 文 的 自然 语言 文本 。 

对 文本 信息 的 处 理 包括 文本 信息 的 分 类 、 检 索 和 浓缩 等 。 目 前 在 这 几 个 方面 的 研究 都 
取得 了 很 大 的 进展 ,产生 了 许多 可 喜 的 成 果 。 如 上 海 交大 纳 讯 公司 由 王 永 成 教授 主持 开发 
的 中 英文 自动 摘要 系统 ,在 信息 浓缩 和 抽取 等 方面 的 研究 处 于 世界 领先 的 地 位 ,摘要 的 质量 
可 以 达到 与 手工 摘要 无 明显 差别 甚至 稍 高 的 程度 。 但 是 ,这 些 成 果 的 研究 大 都 是 建立 在 比 
较 理 想 的 条 件 下 。 所 谓 的 理想 条 件 , 是 指 所 处 理 的 文本 信息 的 形式 比较 单一 (大 多 是 纯 文本 
信息 ) ,格式 比较 规范 ,文本 中 的 一 些 特征 信息 比较 清晰 、 容 易 识 别 等 。 而 现实 中 的 各 种 文本 
信息 ,形式 多 样 化 ,格式 不 是 都 很 规范 ,而 且 一 些 重要 的 特征 信息 比较 模糊 ,这 些 可 以 称 为 文 
本 信息 的 噪声 和 变形 。 品 声 和 变形 的 存在 使 处 理 文本 信息 非常 困难 , 达 不 到 预想 的 质量 。 
在 将 实验 室 的 研究 成 果 产 品 化 , 推 向 市 场 的 时 候 , 就 会 面临 这 样 一 个 问题 : 如 何 去 除 和 减弱 
文本 信息 噪声 和 变形 的 影响 。 

这 也 是 许多 文本 信息 处 理 软件 所 遇 到 的 一 个 共同 的 问题 。 为 了 便于 交流 使 用 ,许多 国 
家 和 地 区 都 制定 了 不 少 信 息 发 布 的 标准 ,但 这 些 标准 不 可 能 包括 信息 发 布 的 所 有 形式 ,而 且 
即使 是 标准 本 身 , 因 为 各 国 所 使 用 的 媒体 .语言 .代码 .控制 符 以 及 格式 等 都 不 一 定 相同 ,在 
信息 交流 中 也 会 出 现 困难 。 为 了 方便 对 文本 信息 进一步 的 加 工 处 理 , 全 世界 掀起 了 一 个 研 
究 与 开发 “ 预 处 理 器 ”的 热潮 。 一般 来 说 ,网 络 信 息 内 容 预 处 理 流程 包括 中 文 分 词 、 去 停 用 
词 .语义 特征 提取 、 特 征 子 集 选 择 、 特 征 重 构 、 向 量 生 成 和 文本 内 容 分 析 等 几 个 步骤 。 下 面 将 
对 这 些 步骤 进行 依次 介绍 。 
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3.1.1 中 文 分 词 


中 文 是 以 字 为 基本 书写 单位 ,单个 字 往 往 不 足以 表达 一 个 意思 ,通常 认为 词 是 表达 语义 
的 最 小 元 素 。 在 汉语 中 ,一 句 话 的 意思 通过 一 段 连续 的 字符 串 来 表达 ,字符 串 之 间 并 没有 明 
显 的 标志 将 其 分 开 , 计 算 机 如 何 正确 识别 词语 是 非常 重要 的 步 又。 例如 ,一 条 英文 文本 消息 
“Ilove this movie. ”, 其 汉语 意思 为 "我 喜欢 这 部 电影 "计算 机 处 理 过 程 中 ,可 以 依靠 空格 
识别 出 movie 是 一 个 词 ,但 不 能 识别 的 * 电 ”和 * 影 "是 一 个 词 ,只 有 将 “电影 ” 切 分 在 一 起 才能 
表达 正确 意思 。 因 此 , 须 对 中 文字 符 串 进行 合理 的 切 分 ,可 认为 是 中 文 分 词 。 下 面 将 分 别 对 
分 词 技术 特点 与 分 词 系统 作 介绍 。 

(1) 中 文 信息 处 理 首要 解决 的 就 是 对 文本 内 容 进行 分 词 。 如 何 实现 准确 、 快 速 的 分 词 
处 理 ,是 自然 语言 处 理 领域 研究 中 的 一 个 难点 。 当 前 主要 的 分 词 处 理 方法 分 为 基于 字符 串 
匹配 的 分 词 方法 、 基 于 统计 的 分 词 方法 和 基于 理解 的 分 词 方 法 。 这 三 类 分 词 技术 代表 了 当 
前 的 发 展 方向 ,有 着 各 自 的 优 缺 点 。 

基于 字符 串 匹 配 的 分 词 方法 优点 是 : 分 词 过 程 跟 词典 作 比较 ,不 需要 大 量 的 语料库 、 规 
则 库 , 其 算法 简单 ,复杂 性 小 ,对 算法 作 一 定 的 预 处 理 后 分 词 速度 较 快 。 缺 点 是 : 不 能 消除 
歧义 .识别 未 登录 词 , 对 词典 的 依赖 性 比较 大 , 若 词 典 足 够 大 ,其 效果 会 更 加 明显 。 

基于 统计 的 分 词 方法 优点 是 : 由 于 是 基于 统计 规律 的 ,因此 对 未 登录 词 的 识别 表现 出 
一 定 的 优越 性 ,不 需要 预 设 词典 。 缺 点 是 : 需要 一 个 足够 大 的 语料库 来 统计 训练 ,其 正确 性 
很 大 程度 上 依赖 于 训练 语料库 的 质量 好 坏 , 算 法 较为 复杂 ,计算 量 大 ,周期 长 ,但 是 都 较为 党 
见 ,处 理 速度 一 般 。 

基于 理解 的 分 词 方法 优点 是 : 由 于 能 理解 字符 串 含义 ,对 未 登录 词 具有 很 强 的 识别 能 
力 ,因此 能 很 好 地 解决 歧义 问题 ,不 需要 词典 及 大 量 语料库 训练 。 缺 点 是 : 需要 一 个 准确 、 
完备 的 规则 库 , 依 赖 性 较 强 ,效果 好 坏 往往 取决 于 规则 库 的 完整 性 。 算 法 比较 复杂 ,实现 技 
术 难度 较 大 ,处 理 速度 比较 慢 。 

(2) 常用 的 中 文 分 词 系统 。 中 文 分 词 技术 是 对 汉语 文本 进行 处 理 的 基础 要 求 ,一 直 是 
自然 语言 处 理 领域 的 研究 热点 ,目前 已 取得 了 很 多 成 果 , 出 现 一 大 批 实用 、 可 靠 的 中 文 分 词 
系统 。 其 代表 有 : 基于 Lucene 为 应 用 主体 开发 的 IKAnalyzer 中 文 分 词 系 统 、 应 丁 中 文 分 
词 系统 , 纯 C 语言 开发 的 简易 中 文 分 词 系统 SCWS, 中 国 科学 院 计 算 技 术 研 究 所 推出 的 汉 
语词 法 分 析 系 统 ICTCLAS, 哈 尔 滨 工业 大 学 信息 检索 研究 室 研制 的 IRLAS, 另 外 国内 北大 
语言 研究 所 、 清 华 大 学 ,北京 师范 大 学 等 机 构 也 推出 了 相应 的 分 词 系统 。 

林林总总 的 分 词 系统 各 有 其 特点 ,例如 IKAnalyzer 实现 了 以 词典 分 词 为 基础 的 正 反 向 
全 切 分 算法 ,更 多 的 用 于 互联 网 的 搜索 和 企业 知识 库 检 索 领 域 ; 应 丁 中 文 分 词 系统 致力 于 
成 为 互联 网 首选 的 中 文 分 词 开 源 组 件 , 它 追求 分 词 的 高 效率 和 用 户 的 良好 体验 ; 而 简易 中 
文 分 词 系统 SCWS 目前 仅 用 于 UNIX 族 的 操作 系统 ; 哈工大 IRLAS 主要 采用 Bigram 语 
言 模型 ,大 大 提高 了 对 未 登录 词 识别 的 性 能 。 目 前 来 看 ,表现 最 为 抢眼 的 无 疑 是 中 国 科学 院 
研制 ICTCLAS ,该 分 词 系统 综合 性 能 十 分 突出 ,在 国内 外 权威 机 构 组 织 的 多 次 公开 评测 中 
都 取得 优异 成 绩 , 已 得 到 国内 外 大 多 数 中 文 信息 处 理 用 户 的 支持 。 
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3.1.2 停 用 词 


停 用 词 也 称 为 功能 词 ,与 其 他 词 相 比 ,通常 是 没有 实际 含义 的 。 在 中 文 信息 处 理 中 , 停 
用 词 一 般 是 指 在 文本 内 容 中 出 现 频 率 极 高 或 者 极 低 的 介词 .代词 .虚词 以 及 一 些 与 情感 无 关 
的 字符 。 这 些 字符 在 中 文 信息 研究 中 没有 实际 意义 。 若 计算 机 对 其 进行 处 理 , 不 但 是 没有 
价值 的 工作 ,还 会 增加 运算 复杂 度 , 通 常 文本 的 停 用 词 处 理 中 可 采用 基于 词 频 的 方法 将 其 除 
去 。 王 素 格 与 魏 英 杰 构 造 5 种 不 同 的 停 用 词 词 表 作为 候选 特征 依据 ,对 汽车 语 料 进行 情感 
分 类 研究 ,考查 对 最 终 分 类 结果 的 影响 ,其 结果 表明 ,无 停 用 词 表 , 即 全 部 作为 候选 特征 与 选 
用 除了 动词 .副词 形容 词 的 停 用 词 表 对 情感 分 类 的 结果 比较 好 。 








3.2 语义 特征 抽取 


根据 语义 级 别 由 低 到 高 来 分 ,文本 语义 特征 可 分 为 亚 词 级 别 、 词 级 别 、 多 词 级 别 .语义 级 
别 和 语 用 级 别 。 其 中 .应 用 最 为 广泛 的 是 词 级 别 。 


3.2.1 词 级 别 语义 特征 


词 级 别 (Word Level) 以 词 作 为 基本 语义 特征 。 词 是 语言 中 最 小 的 、 可 独立 运用 的 有 意 
义 的 语言 单位 ,即使 在 不 考虑 上 下 文 的 情况 下 , 词 仍然 可 以 表达 一 定 的 语义 。 以 单词 作为 基 
本 语义 特征 在 文本 分 类 ,信息 检索 系统 中 工作 良好 ,也 是 实际 应 用 中 最 常见 的 基本 语义 特征 。 

在 英文 文本 中 以 词 为 基本 语义 特征 的 优点 之 一 是 易于 实现 ,利用 空格 与 标点 符号 即 可 
将 连续 文本 划分 为 词 。 如 果 进 一 步 简化 ,忽略 词 之 间 的 逻辑 语义 关系 及 词 与 词 之 间 的 顺序 ， 
则 文本 将 被 映射 为 一 个 词 袋 (Bag of Words) ,在 词 袋 模型 中 只 有 词 及 其 出 现 的 次 数 被 保留 
下 来 。 图 3-1 为 一 个 转换 示例 。 





















Python is a dynamic object ('a' ,2) 
oriented programming language ('and' ,3) 
that can be used for many kinds (be' ,2) 
of software developm ent.lt offers (can' ,2) 
strong support for intefration with (Ceode' ,2) 
other lanaguages and tools,comes 网 
with extensive standard libraries Os. :了 
and can be learned in a few 0 
days.Many Python programmers a 
report substantial productivity (support’ , 1) 
gains and feel the language (that ,2) 
encourages the development of (the ,2) 
higherquality,dmore maintainable (tools' , 1) 
code (used , 1) 











图 3-1 词 袋 模型 
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以 词 为 基本 语义 特征 会 受到 一 词 多 义 与 多 词 同 义 的 影响 ,前 者 指 同一 单词 可 用 于 描述 
不 同 对 象 , 后 者 指 同一 事物 存在 多 种 描述 形式 。 虽 然 一 词 多 义 与 多 词 同 义 现象 在 普通 文本 
信息 中 并 非 罕 见 , 且 难 以 在 词 特征 索引 级 别 有 效 解决 ,但 是 这 种 现象 对 分 类 的 不 良 影 响 却 较 
小 ,例如 英文 中 常见 的 book 、bank 等 词汇 存在 一 词 多 义 现象 ,在 网 络 内 容 安全 中 判断 一 个 
文本 是 否 含有 不 良 信息 时 并 不 易 受 其 影响 。 对 使 用 词 作为 基本 语义 特征 有 较 好 分 类 效果 ， 
Whorf 曾经 做 过 相关 分 析 , 认 为 在 语言 的 进化 过 程 中 , 词 作为 语言 的 基本 单位 朝 着 能 优化 反 
映 表 达 内 容 、 主 题 的 方向 发 展 ,因此 词汇 有 力 地 表示 了 分 类 问题 的 前 沿 分 布 。 

当 英 文 以 词 为 特征 项 时 ,需要 考虑 复数 、 词 性、 词 格 \ 时 态 等 词 形变 化 问题 。 这 些 变 化 形 
式 在 一 般 情况 下 对 于 文本 分 类 没有 贡献 ,有 效 识别 其 原始 形式 并 合 为 统一 特征 项 ,有 利于 降 
低 特征 数量 ,并 避免 单个 词 被 表达 为 多 种 形式 带 来 的 干扰 。 

词 特征 可 进行 计算 的 因素 有 很 多 .最 常用 的 有 词 频 、 词 性 等 。 

1. 词 频 

文本 内 容 中 的 中 频 词 往往 具有 代表 性 ,高 频 词 区 分 能 力 较 小 ,而 低频 词 或 者 未 出 现 词 常 
常 可 以 作为 关键 特征 词 , 所 以 词 频 是 特征 提取 中 必须 考虑 的 重要 因素 ,并 且 在 不 同方 法 中 有 
不 同 的 应 用 公式 。 

2. 词性 

在 汉语 言 中 ,能 标识 文本 特性 的 往往 是 文本 中 的 实 词 ,如 名 词 .动词 或 形容 词 等 ,而 文本 
中 的 一 些 虚词 ,如 感叹 词 介词 或 连词 等 ,对 于 标识 文本 的 类 别 特性 并 没有 贡献 ,也 就 是 对 确 
定 文本 类 别 没 有 意义 。 如 果 把 这 些 对 文本 分 类 没有 意义 的 虚词 作为 文本 特征 词 , 将 会 带 来 
很 大 影响 ,从 而 直接 降低 文本 分 类 的 效率 和 准确 率 。 因 此 ,在 提取 文本 特征 时 ,应 首先 考虑 
剔除 这 些 对 文本 分 类 没有 用 处 的 虚词 ; 而 在 实 词 中 ,又 以 名 词 和 动词 对 文本 类 别 特性 的 表 
现 力 最 强 ,所 以 可 以 只 提取 文本 中 的 名 词 和 动词 作为 文本 的 一 级 特征 词 。 

3. 文档 .词语 长 度 

一 般 情况 下 , 词 的 长 度 越 短 , 其 语义 越 泛 。 通 常 , 中 文中 较 长 的 词 往往 反映 比较 具体 、 下 
位 的 概念 ,而 短 的 词 往往 表示 相对 抽象 、 上 位 的 概念 。 短 词 具 有 较 高 的 频率 和 更 多 的 含义 ， 
是 面向 功能 的 ; 而 长 词 的 频率 较 低 ,是 面向 内 容 的 。 增 加 长 词 的 权重 ,有 利于 词汇 进行 分 
割 , 从 而 更 准确 地 反映 特征 词 在 文章 中 的 重要 程度 , 词 请 长 度 通常 不 被 研究 者 重视 ,但 是 在 
实际 应 用 中 发 现 ,关键 词 通常 是 一 些 专业 学 术 组 合 词汇 ,长度 较 一 般 词汇 长 。 考 虑 候选 词 的 
长 度 , 会 突出 长 词 的 作用 ,长 度 项 也 可 以 使 用 对 数 函 数 来 平滑 词汇 间 长 度 的 剧烈 差异 ,通常 
来 说 ,长 词汇 含义 更 明确 ,更 能 反映 文本 主题 ,适合 作为 关键 词 ,因此 需要 将 包含 在 长 词汇 中 
低 于 一 定 过 滤 阔 值 的 短 词汇 进行 过 滤 。 所 谓 过 滤 阔 值 , 就 是 指 进行 过 滤 短 词汇 的 后 处 理 时 ， 
短 词汇 的 权重 和 长 词汇 的 权重 比 的 最 大 值 如 果 低 于 过 滤 阅 值 , 则 过 滤 短 词汇 ; 否则 ,保留 短 
词汇 。 

根据 统计 ,两 字 词汇 多 是 常用 词 ,不 适合 作为 关键 词 , 因 此 对 实际 得 到 的 两 字 关键 词 可 
以 作出 限制 。 例 如 ,抽取 5 个 关键 词 ( 本 文 最 多 允许 3 个 两 字 关 键 词 存在 )。 这 样 的 后 处 理 
无 疑 会 降低 关键 词 抽取 的 准确 度 和 召回 率 , 但 是 同 候选 词 长 度 项 的 运用 一 样 ,人 工 评价 效果 
将 会 提高 。 
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4. 词语 直径 

词语 直径 (Diameter) 是 指 词语 在 文本 中 首次 出 现 的 位 置 和 末次 出 现 的 位 置 之 间 的 距 
离 。 词 语 直径 是 根据 实践 提出 的 一 种 统计 特征 。 根 据 经 验 , 如 果 某 个 词汇 在 文本 开头 处 提 
到 ,在 结尾 处 又 提 到 ,那么 它 对 该 文本 来 说 将 是 个 很 重要 的 词汇 ,不 过 统计 结果 显示 ,关键 词 
的 直径 分 布 出 现 了 两 极 分 化 的 趋势 ,在 文本 中 仅仅 出 现 了 1 次 的 关键 词 占 全 部 关键 词 的 
14. 184% ,所 以 词语 直径 是 比较 粗糙 的 度量 特征 。 

5. 首次 出 现 位 置 

Frank 在 Kea 算法 中 使 用 候选 词 首次 出 现 位 置 (First Location) 作 为 Bayes 概率 计算 的 
一 个 主要 特征 , 它 被 称 为 距离 (Distance) ,简单 地 统计 可 以 发 现 ,关键 词 一 般 在 文章 中 较 早 
出 现 , 因 此 出 现 位 置 靠 前 的 候选 词 应 该 加 大 权重 ,实验 数据 表明 ,首次 出 现 位 置 和 词语 直径 
两 个 特征 只 选择 一 个 使 用 就 可 以 了 。 例 如 ,由 于 文献 数据 加 工 问题 导致 中 国学 术 期 刊 全 文 
数据 库 的 全 文 数据 ,不 仅 包含 文章 本 身 , 而 且 还 包含 了 作者 、 作 者 机 构 及 引文 信息 。 针 对 这 
一 特点 ,可 以 使 用 首次 出 现 位 置 这 个 特征 , 尽 可 能 减少 由 全 文 数据 的 附加 信息 所 造成 的 不 良 
影响 。 

6, 词语 分 布 偏差 

词语 分 布 偏差 (Deviation) 所 考虑 的 是 词语 在 文章 中 的 统计 分 布 ,在 整 篇 文章 中 分 布 均 
匀 的 词语 通常 是 重要 的 词汇 。 


3.2.2 亚 词 级 别 语义 特征 


亚 词 级 别 (Sub-Word Level) 也 称 为 字 素 级 别 (Graphemic Level) 。 在 英文 中 比 词 级 别 
更 低 的 文字 组 成 单位 是 字母 ,在 汉语 中 则 是 单字 。 

英文 有 26 个 字母 ,每 个 字母 有 大 小 写 两 种 形式 。 英 文中 大 小 写 的 区 别 并 不 在 于 内 容 方 
面 ,因此 在 表示 文本 时 通常 合并 大 小 写 形式 ,以 简化 处 理 模型 。 

1. n 元 模型 

亚 词 级 别 常用 的 索引 方式 是 元 模型 (n-Grams)。n 元 模型 将 文本 表示 为 重 倒 的 n 个 
连续 字母 (对 应 汉语 情况 为 单字 ) 的 序列 作为 特征 项 ,例如 ,单词 shell 的 三 元 模型 为 she、hel 
和 ell( 考 虑 前 后 空格 ,还 包括 _sh 和 11 两 种 情况 ) ,英文 中 采用 n 元 模型 有 助 于 降低 错误 拼 
写 带 来 的 影响 ; 一 个 较 长 单词 的 某 个 字母 拼写 错误 时 ,如 果 以 词 作为 特征 项 , 则 错误 的 拼写 
形式 和 正确 的 词 没 有 任何 联系 。 若 采用 n 元 模型 表示 , 当 n 小 于 单词 长 度 时 ,错误 拼写 与 正 
确 拼写 之 间 会 有 部 分 n 元 模型 相同 ; 另外 ,考虑 到 英文 中 复数 ,词性 、 词 格 \ 时 态 等 词 形变 化 
问题 ,n 元 模型 也 起 到 与 降低 错误 拼写 影响 类 似 的 作用 。 

采用 nn 元 模型 时 ,需要 考虑 数值 n 的 选择 问题 。 当 ”<3 时 ,无 法 提供 足够 的 区 分 能 力 
(在 此 只 考虑 26 个 字母 的 情况 ); "一 3 时 ,有 26: 一 17 576 个 三 元 组 ; n 二 4 时 ,有 26 二 
456 976 个 四 元 组 。n 取 值 越 大 ,可 表示 的 信息 越 丰富 . 随 着 的 增 大 ,特征 项 数目 也 以 指数 
函数 方式 迅速 增长 ,因此 ,在 实际 应 用 中 大 多 取 nn 为 3 或 4( 随 着 计算 机 硬件 技术 的 增长 ,以 
及 网 络 的 发 展 对 信息 流通 的 促进 ,已 经 有 nn 取 更 大 数值 的 实际 应 用 )。 仪 考虑 单词 平均 长 度 
的 情况 ,本 文 统计 了 一 份 GRE 常用 词汇 表 ,7444 个 单词 的 平均 长 度 为 7.69; 考虑 到 不 同 单 
词 在 真实 文本 中 出 现 的 频率 不 同 ,统计 reuters-21578 (路透 社 语料库 ) ,平均 长 度 为 4. 98 个 
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字母 ; 考虑 到 长 度 较 短 单词 使 用 频率 较 高 ,而 拼写 错误 词汇 一 般 长 度 较 长 ,可 见 采用 n= 二 3 
或 4 可 以 部 分 弥补 错误 拼写 与 词 形变 化 带 来 的 干扰 ,并 且 有 足够 的 表示 能 力 。 

2. 多 词 级 别 语义 特征 

多 词 级 别 (Multi-Word Level) 指 用 多 个 词 作为 文本 的 特征 项 ,多 词 可 以 比 词 级 别 表示 
更 多 的 语义 信息 。 随 着 时 代 的 发 展 ,一 些 词组 也 越 来 越 多 地 出 现 ,例如 英文 machine learning、 
network content security \text classification、information filtering 等 ,对 于 这 些 术语 ,采用 单 
词 进行 表示 会 损失 一 些 语义 信息 ,因为 短语 与 单个 词 在 语义 方面 有 较 大 区 别 ; 随 着 计算 机 
处 理 能 力 的 快速 增长 ,处 理 文本 的 技术 也 越 来 越 成 熟 , 多 词 作 为 特征 项 也 有 更 大 的 可 行 性 。 
多 词 级 别 中 的 一 种 思路 是 应 用 名 词 短 语 作 为 特征 项 ,这 种 方法 也 称 为 Syntactic Phrase 
Indexing, 另 外 一 种 策略 则 是 不 考虑 词性 ,只 从 统计 角度 根据 词 之 间 较 高 的 同 现 频率 (Co- 
Occur Frequency) 来 选取 特征 项 ,采用 名 词 短语 或 者 同 现 高 频 词 作为 特征 项 ,需要 考虑 特征 
空间 的 稀 下 性 问题 , 词 与 词 可 能 的 组 合 结果 很 多 ,下 面 仅 以 两 个 词 的 组 合 为 例 进行 介绍 。 根 
据 统计 ,一 个 网 络 信息 检索 原型 系统 包含 的 两 词 特征 项 就 达 10 亿 项 ,而 且 许 多 词 之 间 的 拱 
配 是 没有 语义 的 , 绝 大 多 数组 合 在 实际 文本 中 出 现 频率 很 低 , 这 些 都 是 影响 多 词 级 别 索引 实 
用 性 的 因素 。 


3.2.3 语义 与 语 用 级 别 语义 特征 


如 果 我 们 能 获得 更 高 语义 层次 的 处 理 能 力 , 例 如 实现 语义 级 别 (Semantic Level) 或 语 
用 级 别 (Pragmatic Level) 的 理解 , 则 可 以 提供 更 强 的 文本 表示 能 力 , 进 而 得 到 更 理想 的 文本 
分 类 效果 。 然 而 在 目前 阶段 ,由 于 还 无 法 通过 自然 语言 理解 技术 实现 对 开放 文本 理想 的 语 
义 或 请 用 理解 ,因此 相应 的 索引 技术 并 没有 前 面 的 几 种 方法 应 用 广泛 ,往往 应 用 在 受 限 领 
域 。 在 自然 语言 理解 等 研究 领域 取得 突破 以 后 ,语义 级 别 甚 至 更 高 层次 的 文本 索引 方法 将 
会 有 更 好 的 实用 性 。 


3.2.4 汉语 的 语义 特征 抽取 


1. 汉语 分 词 

汉语 是 一 种 孤立 语 ,不 同 于 印 欧 语系 的 很 多 具有 曲折 变化 的 语言 ,汉语 的 词汇 只 有 一 种 
形式 而 没有 诸如 复数 等 变化 。 另 外 ,汉语 不 存在 显 式 (类 似 空格 ) 的 词 边界 标志 ,因此 需要 研 
究 中 文 (汉语 和 中 文 对 应 的 概念 不 完全 一 致 ,在 不 引起 混淆 的 情况 下 .文本 未 进行 明确 区 分 
而 依照 常用 习惯 选择 使 用 ) 文 本 自动 切 分 为 词 序列 的 中 文 分 词 技术 ,中 文 分 词 方法 最 早 采用 
了 最 大 匹配 法 , 即 与 词 表 中 最 长 的 词 优 先 匹配 的 方法 。 根 据 扫 描 语句 的 方向 ,可 以 分 为 正 向 
最 大 匹配 (Maximum Match,.MM) 、 反 向 最 大 匹配 (Reverse Maximum Match, RMM) ,以 及 
双向 最 大 匹配 (MM) 等 多 种 形式 。 

梁 南 元 的 研究 结果 表明 ,在 词典 完备 、 不 借助 其 他 知识 的 条 件 下 ,最 大 匹配 法 的 错误 切 
分 率 为 169 一 245 字 / 次 ,该 研究 实现 于 1987 年 ,以 现在 的 条 件 来 看 ,当时 的 实验 规模 可 能 偏 
小 ,另外 ,如 何 判 定 分 词 结果 是 否 正确 也 有 和 较 大 的 主观 性 ,最 大 匹配 法 由 于 思路 直观 ,实现 简 
单 、 切 分 速度 快 等 优点 ,所 以 应 用 较为 广泛 ,采用 最 大 匹配 法 进行 分 词 遇 到 的 基本 问题 是 切 
分 歧义 的 消除 问题 和 未 登录 词 ( 新 词 ) 的 识别 问题 。 
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为 了 消除 歧义 ,研究 人 员 尝试 了 多 种 人 工 智能 领域 的 方法 : 如 松弛 法 、 扩 充 转移 网 络 
法 .短语 结构 文法 .专家 系统 法 、 神 经 网 络 法 有 限 状 态 机 方法 、 隐 马尔 科 夫 模型 .Brill 式 转 
换 法 ,这 些 分 词 方法 从 不 同 角度 总 结 歧义 产生 的 可 能 原因 ,并 尝试 建立 歧义 消除 模型 ,也 达 
到 了 一 定 的 准确 程度 ,然而 由 于 这 些 方法 未 能 实现 对 中 文 词 的 真正 理解 ,也 没有 找到 一 个 可 
以 妥善 处 理 各 种 分 词 相 关 语 言 现 象 的 机 制 , 因 此 目前 尚 没有 广泛 认可 的 完善 的 歧义 消除 
方法 < 

未 登录 词 识别 是 中 文 分 词 时 遇 到 的 另 一 个 难题 ,未 登录 词 也 称 为 新 闻 ,是 指 分 词 时 所 用 
词典 中 未 包含 的 词 ,常见 有 人 名 、 地 名 、 机 构 名 称 等 专 有 名 词 , 以 及 相关 领域 的 专业 术语 ,这 
些 词 不 包含 在 分 词 词典 中 却 对 分 类 有 贡献 ,就 需要 考虑 如 何 进 行 有 效 识别 。 孙 茂松 、 邹 嘉 彦 
的 相关 研究 指出 ,在 通用 领域 文本 中 ,未 登录 词 对 分 词 精度 的 影响 超过 了 歧义 切 分 。 

未 登录 词 识别 可 以 从 统计 和 专家 系统 两 个 角度 进行 : 统计 方法 从 大 规模 语 料 中 获取 高 
频 连 续 汉 字 串 ,作为 可 能 的 新 闻 ; 专家 系统 方法 则 是 从 各 类 专 有 名 词 库 中 总 结 相关 类 别 新 
词 的 构建 特征 上下文 特点 等 规则 ,当前 对 未 登 词 的 识别 研究 ,相对 于 歧义 消除 来 说 更 不 

孙 茂 松 、 邹 嘉 彦 认为 分 词 问题 的 解决 方向 是 建设 规模 大 、 精 度 高 的 中 文 语 料 资源 ,以 此 
作为 进一步 提高 分 词 技术 的 研究 基础 。 

对 于 文本 分 类 应 用 的 分 词 问 题 , 还 需要 考虑 分 词 颗粒 度 问 题 。 该 问题 考虑 存在 词汇 苦 
套 情况 时 的 处 理 策略 ,例如 ,“ 文 本 分 类 ”可 以 看 作 是 一 个 单独 的 词 ,也 可 以 看 作 是 “文本 、 分 
类 ”两 个 词 ,应 该 依据 具体 的 应 用 来 确定 分 词 颗粒 度 。 

2. 汉语 亚 词 

在 亚 词 级 别 ,汉语 处 理 也 与 英语 存在 一 些 不 同 之 处 。 一 方面 ,汉语 中 比 词 级 别 更 低 的 文 
字 组 成 部 分 是 字 ,与 英文 中 单词 含有 的 字母 数量 相 比 偏 少 , 词 的 长 度 以 2 一 4 个 字 为 主 ,对 搜 
狗 输入 法 中 34 万 条 词 表 进行 统计 ,不 同 长 度 词 所 占 词 表 比例 分 别 为 两 字 词 35. 57% ,三 字 
词 33. 98% .四 字 词 27. 37% ,其 余 长 度 共 3.08% 。 

另 一 方面 ,汉语 包含 的 汉字 数量 远 远 多 于 英文 字母 数量 ,GB 2312 一 1980 标准 共 收 录 
6763 个 常用 汉字 (GB 2312 一 1980 另 有 682 个 其 他 符号 ,GB 18030 一 2005 标准 收录 了 27 
484 个 汉字 ,同时 还 收录 了 藏 文 . 蒙 文 维 吾 尔 文 等 主要 的 少数 民族 文字 ) ,该 标准 还 是 属于 
收录 汉字 较 少 的 编码 标准 。 在 实际 计算 中 ,汉语 的 二 元 模型 已 超过 英文 中 五 元 模型 的 组 合 
数量 , 即 6763? (45 738 169) > 265(11 881 376)。 

因此 ,汉语 采用 nn 元 模型 就 陷入 了 一 个 两 难 境地 : n 较 小 时 (n 王 1) ,缺乏 足够 的 语义 表 
达能 力 ; n 较 大 时 (n 二 2 或 3), 则 不 仅 计算 困难 ,而 且 的 取 值 已 经 使 得 ”元 模型 的 长 度 达 
到 甚至 超过 词 的 长 度 , 又 失去 了 英语 中 用 于 弥补 错误 拼写 的 功能 。 因 此 汉语 的 元 模型 往 
往 用 于 其 他 用 途 , 在 中 文 信息 处 理 中 ,可 以 利用 二 元 或 一 元 汉字 模型 来 进行 词 的 统计 识别 ， 
这 种 做 法 基于 一 个 假设 , 即 词 内 字 串 高 频 同 现 ,但 并 不 阻止 词 的 字 串 低频 出 现 。 

在 网 络 内 容 安 全 中 ,n 元 模型 也 有 重要 的 应 用 ,对 于 不 可 信和 来 源 的 文本 ,可 以 采用 二 元 
分 词 方法 ( 即 二 元 汉字 模型 ) ,例如 “一 二 三 四 ”的 二 元 分 词 结果 为 “一 二 ”“ 二 三 ”和 “三 四 ”， 
这 种 表示 方法 ,可 以 在 一 定 程度 上 消除 信息 发 布 者 故意 利用 常用 分 词 的 切 分 结果 来 躲避 过 
滤 的 情况 。 
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3.3 ”特征 子 集 选 择 


特征 子 集 选择 从 原 有 输入 空间 , 即 抽取 出 的 所 有 特征 项 的 集合 ,选择 一 个 子 集合 组 成 新 
的 输入 空间 。 输 入 空间 也 称 为 特征 集合 。 选 择 的 标准 是 要 求 这 个 子 集 尽 可 能 完整 地 保留 文 
本 类 别 区 分 能 力 ,而 舍弃 那些 对 文本 分 类 无 贡献 的 特征 项 。 

机 器 学 习 领 域 存在 多 种 特征 选择 方法 ,Guyon 等 人 对 特征 子 集 选择 进行 了 详尽 讨论 ， 
分 析 比 较 了 目前 常用 的 3 种 特征 选择 方式 : 过 滤 (Filter)、 组 合 (Wrappers) 与 租 入 
(Embedded) ,文本 分 类 问题 由 于 训练 样本 多 ,特征 维 数 高 等 特点 ,决定 了 在 实际 应 用 中 以 过 
渡 方 式 为 主 ,并 且 采 用 评级 方式 (Single Feature Ranking) , 即 对 每 个 特征 项 进行 单独 的 判 
断 , 以 决定 该 特征 项 是 否 会 保留 下 来 ,而 没有 考虑 其 他 更 全 面 的 搜索 方式 ,以 降低 运算 量 ,在 
对 所 有 特征 项 进行 单独 评价 后 ,可 以 选择 给 定 评价 函数 大 于 某 个 阔 值 的 子 集 组 成 新 的 特征 
集合 ,也 可 以 评价 函数 值 最 大 的 特定 数量 特征 项 来 组 成 特征 集 ,特征 子 集 选择 涉及 文本 中 的 
定量 信息 ,一 些 相 关 参 数 定 义 如 表 3-1 所 示 。 

表 3-1 文档 及 特征 项 各 参数 含义 








参数 含 义 

N 训练 样本 数 
ne ci 类 别 包含 的 训练 样本 数 
n(t) 包含 特征 项 上 至 少 一 次 的 训练 样本 数 
nl) 不 包含 特征 项 : 的 训练 样本 数 

nc, (1 ci 类 别 包含 特征 项 t 至 少 一 次 的 训练 样本 数 
nc, (PD) ci 类 别 不 包含 特征 项 t 的 训练 样本 数 

tf 所 有 训练 样本 中 所 有 特征 项 出 现 的 总 次 数 
tf (DD) 特征 项 上 在 所 有 训练 样本 中 出 现 的 次 数 
tfa (t) 特征 项 上 在 文档 必 中 出 现 的 次 数 


很 容易 可 知 ,参数 间 满 足 如 下 关系 : 


7 一 了 (3-1) 


n(t) = Dn (1) (3-2) 


=1 
式 (3-1) 表 示 样 本 总 数 等 于 各 类 别 样本 数 之 和 , 式 (3-2) 表 示 只 包含 任 一 特征 项 1 的 样本 集 
合 , 也 满足 类 似 关系 。 
n= n(t) t+) (3-3) 
ns = ns (D +s (0) (3-4) 
式 (3-3) 表 示 n(1) 和 77(1) 互 补 , 式 (3-4) 表 示 这 种 关系 也 适用 于 任意 给 定 文本 类 别 。 


ol} (3-5) 
i=l 


f(D) = Difa (CD (3-6) 
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式 (3-5) 和 式 (3-6) 给 出 了 tf 和 tf (7) 的 计算 方法 。 
利用 这 些 参 数 , 结 合 统计 信息 论 等 学 科 , 即 可 进行 特征 子 集 选择 ,最 简单 的 方式 是 停 用 
词 过 滤 。 


3.3.1 停 用 词 过 滤 


停 用 词 过 滤 (Stop Word Elimination) 基 于 对 自然 语言 的 观察 ,存在 一 些 几 乎 在 所 有 样 
本 中 出 现 ,但 是 对 分 类 没有 贡献 的 特征 项 。 例 如 , 当 以 词 作为 特征 项 时 ,英语 中 的 冠 词 、 介 
词 `. 连 词 和 代词 等 。 这 些 词 的 作用 在 于 连接 其 他 表示 实际 内 容 的 词 , 以 组 成 结构 完整 的 
语句 。 

停 用 词 词 表 可 以 手工 建立 ,也 可 以 通过 统计 自动 生成 ,英语 领域 有 手工 建立 领域 无 关 和 
面向 具体 领域 的 停 用 词 词 表 ,一 般 停 用 词 表 中 含有 数 十 到 数 百 个 停 用 词 ,汉语 的 停 用 词 表 较 
英语 可 用 资源 少 一 些 ,对 于 特征 项 抽取 时 采用 亚 词 级 别 的 元 模型 情况 ,应 当先 进行 停 用 词 
过 滤 , 然 后 再 对 文本 内 容 进 行 n 元 模型 构建 ,对 于 多 词 级 别 采用 相 邻 词 构 成 特征 项 的 情况 ， 
也 可 先进 行 停 用 词 去 除 。 

除 手工 建立 停 用 词 词 表 外 ,还 可 采用 统计 方法 ,统计 某 一 个 特征 项 1 在 训练 样本 中 出 现 
的 频率 (n(z) 或 1f(1) ), 当 达到 限定 阔 值 后 , 则 认为 该 特征 项 在 所 有 类 别 或 大 多 数 文本 中 频 
繁 出 现 , 对 分 类 没有 贡献 能 力 , 因 此 作为 停 用 词 而 被 去 除 。 

针对 具体 应 用 还 可 以 建立 相关 领域 的 停 用 词 表 ,或 者 用 于 调整 领域 的 无 关 停 用 词 表 。 
例如 ,汉字 的 “的 ” 字 ,通常 可 以 作为 停 用 词 ,但 在 某 些 领 域 ,有 可 能 “的 " 字 是 某 个 专 有 名 词 的 
一 部 分 ,这 时 就 需要 将 其 从 停 用 词 表 中 去 除 ,或 调整 停 用 策略 。 


3.3.2 文档 频率 阅 值 法 


文档 频率 辣 值 法 (Document Frequency Threshold) 用 于 去 除 训练 样本 集中 出 现 频 率 较 
低 的 特征 项 ,该 方法 也 称 DF 法 。 对 于 特征 项 1, 如果 包 含 该 特征 项 的 样本 数 (7) 小 于 设 定 
的 阔 值 9, 则 去 除 该 特征 项 :, 通 过 调节 8 值 能 显著 地 影响 可 去 除 的 特征 项 数 。 

文档 频率 闪 值 方法 基于 如 下 猜想 : 如 果 一 个 作者 在 写作 时 经 常 重复 某 一 个 词 , 则 说 明 
作者 有 意 强 调 该 词 ,该 词 同文 章 主 题 有 较 强 的 相关 性 ,从 而 也 说 明 这 个 词 对 标识 文本 类 别 的 
重要 性 ; 另外 ,不 仅 在 理论 上 可 以 认为 低频 词 和 文本 主题 \ 分 类 类 别 相差 程度 不 大 ,在 实际 
计算 中 ,低频 词 由 于 出 现 次 数 过 低 , 也 无 法 保证 统计 意义 上 的 可 信和 度 。 

语言 学 领域 存在 一 个 与 此 相关 的 统计 规律 一 一 齐 夫 定 律 (Zipf Laws) ,美国 语言 学 家 
Zipf 在 研究 英文 单词 统计 规律 时 ,发 现 将 单词 按照 出 现 的 频率 由 高 到 低 排列 ,每 个 单词 出 现 
的 频率 rank(?) 与 其 序号 n(t) 存 在 近似 反比 关系 : 

rank(1) »。 TF(1) ~ C (3-7) 

中 文 也 存在 类 似 规律 ,对 新 浪 滚动 新 闻 的 133 577 篇 新 闻 的 分 词 结果 进行 统计 ,结果 见 
图 3-2, 其 中 工 轴 表示 按照 词 频 ( 特 征 项 频率 ) 逆 序 排列 的 序号 ,y 轴 表 示 该 特征 项 出 现 的 
次 数 。 

这 个 规律 说 明 ,在 训练 样本 集中 大 多 数 词 低频 出 现 ( 由 于 这 一 特点 ,这 一 语言 规律 也 称 
为 长 尾 (Long Tail) 现 象 ) ,解释 了 文档 频率 阔 值 法 只 需 不 太 大 的 冰 值 ,就 能 够 明显 降低 维 数 
的 原因 。 另 外 ,对 于 出 现 次 数 较 多 的 项 ,有 可 能 属于 停 用 词性 质 , 应 当 去 除 。 因 此 ,对 于 汉语 
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图 3-2 一 个 中 文 预料 的 齐 夫 定律 现象 验证 


没有 成 熟 的 停 用 词 词 表 , 尤 其 对 于 网 络 内 容 安全 相关 的 停 用 词 表情 况 , 单 纯 使 用 文档 频率 阔 
值 法 ,会 包含 一 些 频 率 较 高 而 对 分 类 贡献 较 小 的 特征 项 。 


3.3.3 TF-IDF 


特征 项 频率 一 一 逆 文 本 频率 指数 (Term Frequency-Inverse Document Frequency, TF- 
IDF) 可 以 看 作 是 文档 频率 阔 值 法 的 补充 与 改进 。 文 档 频率 阔 值 法 认为 ,出 现 次 数 很 少 的 特 
征 项 对 分 类 贡献 不 大 ,可 以 去 除 。TF-IDF 方法 则 结合 考虑 两 个 部 分 : 第 一 部 分 认为 ,出 现 
次 数 较 多 的 特征 项 对 分 类 贡献 较 大 ; 第 二 部 分 认为 ,如 果 一 个 特征 项 在 训练 样本 集中 的 大 
多 数 样本 中 都 出 现 , 则 该 特征 项 对 分 类 贡献 不 大 ,应 当 去 除 。 

一 个 直观 的 特例 : 如 果 一 个 特征 项 1 在 所 有 样本 中 都 出 现 ,这 时 有 n(z) 一 n, 保 留 1 作 
为 特征 ,特征 值 采取 二 进 制 值 表示 方式 时 (特征 出 现时 ,特征 值 为 1; 特征 不 出 现时 ,特征 值 
为 0), 则 该 特征 没有 任何 分 类 贡献 ,因为 对 应 任 一 样本 ,该 特征 项 都 取 1, 所 以 应 当 去 除 该 
特征 。 

第 一 部 分 可 以 用 TF() 来 表示 ,第 二 部 分 采用 逆 文 本 频率 指数 来 表示 ,一 个 特征 项 1 的 
道 文本 频率 指数 IDF(z) 由 样本 总 数 与 包含 该 特征 项 文档 数 决定 : 


于 n g 
IDFCD) 一 lg 了 (3-8) 


第 一 部 分 和 第 二 部 分 都 满足 取 值 越 大 时 ,该 特征 对 类 别 区 分 能 力 越 强 , 取 两 者 乘积 作为 
该 特征 项 TF-IDF 值 : 





了 2 


n(1) 
一 般 停 用 词 第 一 部 分 取 值 较 高 ,而 第 二 部 分 取 值 较 低 ,因此 TF-IDF 等 价 于 停 用 词 和 文 
档 频 率 阔 值 法 两 者 的 综合 。 


3.3.4 信 噪 比 
信 噪 比 (Signal-to-Noise Ratio, SNR) 源 于 信号 处 理 领 域 .表示 信号 强度 与 背景 噪音 的 





TF-IDF() = TF() » IDF() = n(1) .lg (3-9) 
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差 值 , 如 果 将 特征 项 作为 一 个 信号 来 看 待 , 那 么 特征 项 的 信 噪 比 可 以 作为 该 特征 项 对 文本 类 
别 区 分 能 力 的 体现 。 

信号 背景 噪声 的 计算 ,需要 引入 信息 论 中 炉 (Entropy) 的 概念 , 炉 最 初 由 克 劳 修 斯 在 
1864 年 提出 并 应 用 于 热力 学 , 1948 年 由 香农 引入 信息 论 中 , 称 为 信息 人 (Information 
Entropy)。 其 定义 为 : 如 果 有 一 个 系统 和 ,存在 < 个 事件 X 一 {zl,zz，…ze} ,每 个 事件 的 概 
率 分 布 为 P 二 {pi,ps，… ,pe), 则 第 i 个 事件 本 身 的 信息 量 为 一 lg(pi) ,该 系统 的 信息 炉 即 为 
整个 系统 的 平均 信息 量 : 





Entropy(X) 一 一 Dpilgp: (3-10) 
i=1 


为 方便 计算 , 令 pi 为 0 时 , 炉 值 为 0( 即 0lg0), 炉 的 取 值 范围 是 [0,lgcj, 当 XX 以 100% 
的 概率 取 某 个 特定 事件 ,其 他 事件 概率 为 0 时 , 炉 取 得 最 小 值 0; 当 各 事件 的 概率 分 布 越 趋 
于 相同 时 , 炉 的 值 越 大 ; 当 所 有 事件 趋 于 可 能 性 发 生 时 , 焙 取 最 大 值 lgc。 根 据 炉 的 概念 , 定 
义 特征 项 的 噪声 


Noise(t) = 一 DP(d;,D lgP(ad;,t) (3-11) 
j=1 


TF (2) . 
元 人 表示 了 特征 项 上 出 现在 样本 di 中 的 可 能 性 ,特征 项 7 的 噪音 函数 
取 值 范围 为 0,lgn]j, 当 特征 项 1 集中 出 现在 单个 样本 内 时 ,取得 最 小 值 0; 当 特 征 项 4 以 等 
可 能 性 出 现在 所 有 (n 个 ) 样 本 中 时 ,取得 最 大 值 lg(z) ,这 符合 越 集中 在 较 少 样本 中 ,特征 项 
为 噪音 可 能 性 越 小 的 直观 认识 ,相应 特征 项 1 的 信号 值 若 用 lgTF(1) 来 表示 ,可 得 信 品 比 计 
算 公式 : 


式 中 , P(dj,t) = 


SNR(1)= lgTF(1) — Noise(t) 
= lgTF() 十 >)P(d .DlgPldj,t) (3-12) 
j=1 


信 噪 比 取 值 范围 为 [0,lgTF(z)], 仅 当 特 征 项 :在 全 部 (2 个 ) 样 本 中 均 出 现 1 次 时 ,取得 
最 小 值 0, 表 明 这 种 情况 下 当前 特征 项 是 一 个 完全 的 噪音 ,没有 任何 分 类 贡献 能 力 ; 当 特 征 
项 上 集中 出 现在 一 个 样本 内 时 ,取得 最 大 值 lgTF(2) 。 

计算 信 噪 比 时 未 考虑 样本 所 属 类 别 。 当 特征 项 只 出 现在 较 少 样本 时 , 信 噪 比较 高 ,如 果 
这 些 文本 基本 属于 同一 类 别 , 则 表明 该 特征 项 是 一 个 有 类 别 区 分 能 力 的 特征 ; 如 果 不 满足 
这 种 分 布 情况 , 则 特征 项 的 信 噪 比 取 值 较 大 时 也 不 表明 其 有 较 好 的 类 别 区 分 能 力 。 


3.4 特征 重 构 


特征 重 构 以 特征 项 集合 为 输入 ,利用 对 特征 项 的 组 合 或 转换 生成 新 的 特征 集合 作为 输 
出 ,一 方面 ,特征 重 构 要 求 输出 的 特征 数量 要 远 远 少 于 输入 的 数量 ,以 达到 降 维 目的 ; 另 一 
方面 ,转换 后 的 特征 集合 应 当 尽 可 能 地 保留 原 有 类 别 区 分 能 力 , 以 实现 有 效 分 类 ,与 特征 子 
集 选择 相 比 较 , 特 征 重 构 生 成 的 新 特征 项 不 要 求 对 应 原 有 的 特征 项 ,新 特征 项 可 以 是 由 原来 
单个 或 多 个 特征 项 经 某 种 映射 关系 转换 而 成 的 。 这 种 转换 规则 需要 保存 下 来 ,以 便于 对 新 
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的 样本 也 进行 同样 的 转换 ,得 到 该 样本 所 对 应 特征 重 构 情况 的 表示 形式 。 
特征 重 构 有 基于 语义 的 方法 ,如 词 干 与 知识 库 方法 ; 也 有 基于 统计 等 的 数学 方法 ,如 潜 
在 语义 索引 。 


3.4.1 词 干 





日 于 英文 存在 词 形 变化 情况 , 词 干 方法 (Stemming) 在 英文 文本 处 理 中 应 用 较为 广泛 ， 
从 分 类 角度 考查 ,这 些 变 化 对 类 别 区 分 贡献 较 小 ,因此 词 干 方法 的 目的 是 将 变化 的 形式 与 其 
原形 式 合并 为 单个 特征 项 ,从 而 有 效 降 低 特征 项 维 数 , 英 文中 这 些 变 化 通常 表现 为 词 的 后 级 
部 分 的 变化 ,因此 实际 常用 的 解决 方式 是 采用 简单 保留 词 前 面 的 主体 部 分 (去 除 后 级 ) ,这 样 
处 理 可 以 得 到 比较 理想 的 结果 ,M. F. Porter 早 在 1979 年 就 提出 一 种 算法 ,并 一 直 在 其 主页 
(http://wwwtartarus. org/ 一 martin/PorterStemmer/) 上 进行 维护 ,先后 完善 了 多 种 编程 
语言 的 实现 。 他 对 各 种 不 同 的 词 干 算法 进行 了 综述 ,并 在 原先 基础 上 继续 研究 ,认为 进行 词 
干 处 理 对 系统 性 能 提高 有 限 。 
当 采 用 元 模型 作为 特征 项 时 ,应 当 在 构建 元 模型 前 进行 词 干 处 理 。 


3.4.2 知识 库 


词 干 方法 从 词 形变 化 方面 进行 降 维 ,而 知识 库 (Thesaurus) 方 法 则 从 词义 角度 进行 降 
维 。 自 然 语言 中 存在 同义词 和 近义词 现象 ,知识 库 可 以 构建 这 种 关系 的 表达 ,以 将 其 聚合 在 
一 起 ,从 而 实现 降 维 。 通 常 ,知识 库 可 以 表示 为 一 些 词 及 这 些 词 之 间 的 关系 。 常 用 的 关系 有 
同 义 、 近 义 方面 ,或 者 包含 范围 大 小 方面 等 关系 。 通 用 领域 内 研究 较 早 .应 用 较为 广泛 的 知 
识 库 , 有 面向 英文 的 WordNet (http://wordnet. princeton. edu/) 与 面向 中 文 的 “ 知 网 ” 
(http://www. keenage. com/ )。 

知识 库 的 构建 往往 需要 手工 建设 ,还 需要 维护 更 新 ,以 便于 添加 新 的 、 去 除 过 时 或 修正 
错误 内 容 等 ,以 及 根据 具体 的 应 用 设 定 相应 的 各 种 映射 规则 。 需 要 消耗 大 量 人 力 ,限制 了 知 
识 库 方式 的 自动 实现 程度 与 使 用 范围 。 

近年 来 ,一 种 多 人 协作 的 写作 方式 Wiki 发 展 迅 速 , Wiki 站 点 可 以 由 多 人 (甚至 任何 访 
问 者 ?维护 ,每 个 人 都 可 以 发 表 自 己 的 意见 ,或 者 对 共同 的 主题 进行 扩展 及 探讨 , Wiki 指 一 
种 超 文本 系统 ,这 种 超 文 本 系统 支持 面向 社 群 的 协作 式 写 作 ,同时 包括 一 组 支持 这 种 写作 
的 辅助 工具 ,以 Wikipedia( http://zh. wikipedia. org/) 为 代表 的 Wiki 网 站 ,已 经 达到 相当 
数量 的 信息 积累 ,不 仅 在 更 新 速度 .信息 容量 方面 比 以 往 的 个 人 维护 或 专家 集体 创作 的 
百科 全 书 有 明显 优势 ,而 且 在 信息 质量 方面 也 经 受 了 实践 的 检验 与 认可 。 利 用 Wiki 来 辅 
助 自然 语言 处 理 及 文本 分 类 ,也 有 相关 研究 , 它 是 知识 库 方式 的 新 形势 , 且 有 和 较 大 的 实际 
意义 。 


3.4.3 潜在 语义 索引 


20 世纪 80 年 代 M. W. Berry 和 S.T. Dumais 提出 了 一 种 新 的 信息 检索 模型 : 潜在 语 
义 索 引 (Latent Semantic Indexing, LSD) 模 型 。 该 模型 对 利用 向 量 空间 模型 (Vector Space 
Model, VSM) 表示 文本 时 直到 的 困难 问题 进行 回答 ,很 快 在 信息 检索 、 信 息 过 滤 、 特 征 降 维 
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等 领域 获得 广泛 应 用 ,并 有 多 种 LSI/SVD 实现 。 

VSM 将 一 篇 文本 表示 为 向 量 空 间 中 的 一 个 向 量 , 不 仅 比 复杂 的 语义 表示 结构 易于 实 
现 , 而 且 适 合作 为 信息 检索 ,用 于 机 器 学 习 领 域 的 输入 形式 。 因 此 , 它 作为 文本 表示 的 基础 
模型 而 得 以 广泛 应 用 。 然 而 SVM 模型 认为 ,各 特征 项 之 间 独 立 分 布 ( 不 相关 ) ,这 一 要 求 在 
自然 语言 领域 内 往往 无 法 得 到 保证 。 以 词 为 例 , 各 个 词 之 间 并 不 是 毫 无 关系 ,而 是 关系 极为 
复杂 (简单 的 ,如 存在 一 词 多 义 和 多 词 同 义 、. 近 义 现象 ) ,从 理论 上 来 说 , 若 能 将 多 义 词 按照 不 
同 含义 分 为 多 个 特征 项 ,将 多 个 同义词 合并 为 一 个 特征 项 ,对 于 信息 过 滤 和 文本 分 类 等 应 用 
会 产生 正面 影响 ,在 实际 应 用 中 ,并 不 容易 正确 区 分 各 种 同 义 和 多 义 现象 ,而 且 对 于 更 复杂 
的 词 之 间 的 关系 ,也 没有 简单 的 一 分 为 多 或 多 合 为 一 的 直观 解决 方法 。 可 以 说 ,这 些 是 知识 
库 方 法 面临 的 另外 一 个 实用 性 限制 。 

LSI 模型 则 以 大 规模 的 语 料 为 基础 ,通过 使 用 线性 代数 中 对 矩阵 进行 奇异 值 分 解 
(Singular Value Decomposition,SVD) 的 方法 ,实现 了 一 种 词 与 词 之 间 潜 在 语义 的 表示 方 
式 ,同时 ,克服 了 手工 构建 知识 库 耗 费 大 量 人 力 物力 以 及 难以 表达 显 式 关系 等 缺点 。 

和 矩阵 进行 奇异 值 分 解 过 程 : 设 4 是 秩 为 ~ 的 痉 关 和 矩阵, 则 存在 产 阶 正 交 和 矩阵 ( 正 交 和 拢 
阵 是 指 转 置 矩阵 为 自身 逆 矩 阵 的 方 阵 )U 和 交 阶 正 交 矩阵 V, 使 4 可 分 解 为 4 一 USVT, 其 中 
VT 表示 短 阵 V 的 转 置 矩 阵 ; 加 为 对 角 和 矩阵 ,对 一 diag(olos,…,o0.…,0), 且 有 co 三 ci 二 
or。oi(i 一 1.,2,…,r) 为 矩阵 4 的 奇异 值 。U,V 的 列 向 量 , 分 别称 为 4 的 左 、 右 奇异 向 量 。 

SVD 分 解 可 以 用 于 求解 原 矩 阵 A 的 近似 矩阵 。 方 法 是 选择 一 个 & 值 (4 一 ) ,号 只 保留 
前 & 个 比较 大 的 奇异 值 组 成 新 的 对 角 阵 多: (保留 奇异 值 从 大 到 小 顺序 ),U 和 Y 只 保留 前 & 
列 , 分 别 记 为 Ui ,Vi, 则 通过 计算 Ui 允 :V# 得 到 A 的 近似 矩阵 A4, 如 图 3-3 所 示 。 
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3-3 A: 的 计算 示意 图 


新 矩阵 4 是 A 的 一 个 & 秩 近似 矩阵 , 它 在 最 小 平方 意义 下 最 接近 原 和 矩阵 ,潜在 语义 索 
引 认为 A 包含 了 A 的 主要 结构 信息 ,而 忽略 那些 数值 很 小 的 奇异 值 ,从 而 实现 降 维 。 对 于 
文本 分 类 问题 来 说 ,和 矩阵 4 表示 特征 项 -样本 矩阵 ,每 一 个 列 向 量 表示 一 个 样本 中 各 特征 项 
的 权重 , 行 向 量 表示 一 个 特征 项 在 各 文本 中 的 权重 ,通过 SVD 分 解 . 特 征 项 -样本 和 矩阵 从 A 
转换 为 4A; 从 而 实现 了 降 维 .不 仅 去 除了 对 分 类 影响 很 小 的 特征 项 ,而 且 近 似 的 特征 项 被 合 
并 。 如 同义词 ,在 & 维 空间 中 有 相似 的 表示 ,并 且 出 现在 相似 文档 中 的 特征 项 也 是 近似 的 ， 
即使 它们 并 未 出 现在 同一 个 文档 中 , 原 向 量 空间 模型 中 文档 d 经 过 LSI 模型 转换 为 4, 转 换 
公式 为 
d = dUSr (3-13) 
LSI 构造 了 特征 项 之 间 潜 在 的 语义 关系 空间 ,下面 以 一 个 实例 说 明 具 体 的 计算 过 程 ,其 
训练 数据 来 自 SIAM review 的 一 篇 书评 文章 中 的 书 名 ,如 表 3-2 所 示 。 
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表 3-2 SIAM review 书评 中 所 涉及 书 名 





























书 编号 书 名 
Bl A Course on IntegralEquations 
B2 Attractors for Semigroups and Evolution Equations 
B3 Automatic Dif ferentiation of Algorithms :Theory, lImplementation.and Application 
B4 Geometrical Aspects of PartialDif ferentialEquations 
说 Tdeals,Varieties ,and Algorithms-An Introduction to Computational Algebraic Geometry and 
Commutative Algebra 
B6 Introduction to Hamiltonian Dynamical Systems and the N-Body Problem 
B7 Knapsack Problems :Algorithms and Computer Implementations 
B8 Methodsof Solving Singular Systems of OrdinaryDif ferentialEquations 
B9 Nonlinear Systems 
B10 OrdinaryDif ferentialEquations 
B11 OscillationsTheory for Neutral Dif ferentialEquations with Delay 
B12 OscillationsTheory of DelayDif ferentialEquations 
B13 Pseudodif ferential Operations and NonlinearPartialDif ferentialEquations 
Bl4 Since Methods for Quadrature and Dif ferentialEquations 
B15 Stability of Stochastic Dif ferentialEquations with Respect to Semi-Martingales 
B16 The Boundary Integral Approach to Static and Dynamic Contact Problems 
B17 The Double Mellin-Barnes Type Integrals and their Applications to Convolutions Theory 








其 中 有 下 夯 线 的 词 , 表 明 其 至 少 在 两 本 书 的 书 名 中 出 现 过 ,去 除 只 出 现 一 次 的 低频 词 ， 
组 成 特征 项 -文本 矩阵 ,如 表 3-3 所 示 。 


特 征 词 


表 3-3 16X17 维特 征 项 -文本 矩阵 





文 本 





Bl | B2 | B3 


[ed 
人 
名 


B6 | B7 | B8 | B9 |B10|B11|B12|B13|B14|B15|B16| B17 





Algorithms 0 
Application 0 
Delay 0 
Differential 0 
Equations 1 
Implementation 0 
Integral 和 
Introduction 0 
Methods 0 
Nolinears 0 
Odinary 0 
Oscillation 0 
Partial 0 
Problem 0 
Systems 0 
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Theory 


| 0 


~ Ooooopc 
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moooeoeeeeerrnmeece ec 





















































全 人 -可 蚀 多 人 
moeoooeoeeceeeeeereeerm 
加 三 
o-oooopoc 
reoeoeeereeeee ec 
moeoooeoreoeeceececeeceeceecenmrm rm = 
ooeoreereeeecermrm ee ec 
eeoeoeoeoeeeereeermme ee 
ooeeceeeeeeecer 上 
orececeececeeecereeceeece = 


雪 本 和 
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对 表 3-3 所 表示 的 特征 项 -文本 矩阵 进行 奇异 值 分 解 ,只 保留 最 大 的 两 个 奇异 值 (一 
2) ,得 到 Us 有 ,为 
0159 ”一 0.4317 


0266 ”一 0.3756 
1785 ”一 0.1692 
6014 0.1187 

6691 0.1209 

0148 ”一 0.3603 
0520 0.1120 

1503 0.1127 3= ( 
0813 0.0672 

1503 0.1127 

1785 —0.1692 
1415 0.0974 

0105 ”一 0.2363 
0952 0.0399 

0.2051 一 0.5448 

以 信息 检索 方面 的 应 用 为 例 ,一 个 查询 4 为 Application Theory, 对 应 原始 向 量 空间 模 
型 为 9 一 [0 10 000 000 000000 ,利用 查询 q 从 原来 的 17 本 书 中 查询 相关 书 的 问题 可 
以 转化 为 如 下 问题 : 即 认为 查询 g 也 是 一 本 书 (或 者 说 是 书 名 ,因为 例子 中 以 书 名 代表 书 的 
内 容 ) ,任务 就 转换 为 判断 有 哪些 书 和 4 比较 近似 。 根 据 式 (3-13) 进 行 降 维 ,结果 为 4 一 q"U。 
如 !' 二 [0.0511, 一 0.3337]。 至 此 ,就 完成 了 g 一 4 的 降 维 过 程 ,然后 根据 余弦 相似 度 即 可 计 
算 和 各 文档 之 间 的 相似 程度 。 

LSI 模型 有 着 良好 的 降 维 性 能 ,对 特征 项 之 间 的 潜在 关系 有 着 优秀 的 表达 能 力 , 这 是 
LSI 的 优点 所 在 。LSI 模型 也 存在 一 些 在 应 用 时 需要 注意 的 不 足 之 处 ,如 转换 结果 不 直观 、 
矩阵 分 解 运 算 量 大 ,动态 更 新 需 重 新 运算 等 。 随 着 LSI 相关 研究 的 深入 ,部 分 不 足 正 逐渐 
得 以 解决 ,如 奇异 值 分 解 的 并 行 算法 有 助 于 实现 更 大 规模 的 矩阵 奇异 值 分 解 。 


4.431 40 0 
Ui = ) 


0 0.275 82 


i i 





3.5 向 量 生 成 


上 述 特征 项 抽取 及 特征 选择 环节 回答 了 文本 表示 的 一 个 基本 问题 : 选择 适合 作为 表示 
文本 的 特征 项 集合 ; 而 向 量 生成 (Vector Generation) 环 节 回答 了 文本 表示 的 另 一 个 基本 问 
题 : 给 这 些 特征 项 赋予 合适 的 权重 ,与 向 量 生成 相关 的 一 些 参数 定义 : 设 共 有 训 项 (41,…， 
tm ) 特 征 , 对 给 定 样 本 d, 由 每 一 个 特征 出 现 的 频率 次 数组 成 特征 频率 向 量 DTr 二 (TFa(41),…， 
TFa(t,))” ,其 中 TFa(t;) 表 示 特 征 ti 在 样本 d 中 出 现 的 次 数 ,向 量 生成 环节 研究 在 此 基础 
上 的 权重 向 量 d= 二 (wld .i),…,w(d ,tn))T。 

Salton 认为 ,一 个 样本 中 某 特征 项 的 权重 由 局 部 系数 、 全 局 系数 和 正规 化 系数 3 部 分 组 
成 。 即 


wil(d,t) w(t) 


wld.t) 一 ay 
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3.5.1 局 部 系数 


局 部 系数 (Local Component)wi(d,?) ,表示 特征 上 对 当前 样本 d 的 直接 影响 ,一 般 认为 
在 样本 d 中 一 个 特征 上 出 现 的 次 数 越 多 , 则 上 对 d 的 影响 越 大 ,常用 局 部 系数 方式 见 表 3-4。 
表 3-4 常用 局 部 系数 











简 记 计算 方法 说 明 
n wi(d,))=TFa(t) n 表示 无 转换 (No Conversion) 
1,TFs (1) >0 
bo wedo= 1) “ 二 进 制 值 表 示 (Binary Term Indicator) 
_ TF Ea 个 特征 由 
m wd,D=7FG 7 tmsx 表 示 样 本 d 中 单个 特征 出 现 最 多 的 次 数 
全 下 二 了 (9 增 大 (Augment)m 方式 结果 ,m 方式 的 变形 ,由 [0,1] 至 
Wg [0.5,1] 
1 十 lgTFs(iD) ,TF (1) >0 
1 madd=| So 9" 对 数 (Logarithm) 运 算 


3.5.2 全 局 系数 


全 局 系数 (Global Component)ws(?) 考 虑 特征 t 在 整个 训练 样本 中 的 重要 性 ,包含 特征 
t 的 文档 数 较 少 时 ,特征 + 比较 有 分 类 区 分 能 力 , 应 给 予 较 大 权重 。 常 用 全 局 系数 方式 见 
表 3-5。 
表 3-5 常用 全 局 系数 





简 记 计算 方法 说 有明 
we (D=log m0 即 TF-IDF 中 IDF 
p we(D) =log 0 五 一 ma 一 at) ,方式 的 变形 
n ws (1)=1 不 考虑 全 局 因素 


3.5.3 规范 化 系数 


规范 化 系数 (Normalization Component) 用 于 调节 权重 的 取 值 范围 ,一 种 常见 的 方式 是 
将 所 有 的 权重 向 量 的 取 值 范围 映射 到 [0,1] 区 间 。 常 用 规范 化 系数 方式 见 表 3-6 。 


表 3-6 常用 规范 化 系数 





简 记 计算 方法 说 明 
EYE 不 元 谍 规 范 化 系数 
sD) = md was) 单个 样本 的 所 有 权重 之 和 调节 为 1 





i=1 


c Wd) = /FN wat) wed 单个 样本 所 有 权重 的 平均 和 为 1 





56 网 络 信息 内 容 安 全 





3.6 文本 内 容 分 析 


虽然 可 以 不 断 提高 文本 表示 模型 的 效率 ,但 每 个 文本 都 是 由 大 量 的 特征 所 组 成 的 这 一 
事实 导致 文本 表示 维 数 会 达到 数 十 万 维 的 大 小 ,对 将 要 进行 的 文本 内 容 分 析 可 能 带 来 灾难 
性 的 计算 时 间 指 数 增长 ,而 产生 的 特征 子 集 分 类 结果 与 小 得 多 的 特征 子 集 相近 。 因 此 ,减少 
文本 特征 的 维 数 至 关 重 要 。 本 节 分 别 从 语法 、 语 义 和 语 用 三 个 方面 进行 文本 内 容 分 析 , 为 展 
开 文 本 内 容 安全 应 用 研究 打 好 基础 。 


3.6.1 文本 语法 分 析 方 法 


文本 语法 分 析 (Text Grammar Analysis) 是 指 通过 语言 模型 或 语法 模型 来 处 理 文本 的 
过 程 ,包括 隐 马 尔 科 夫 (Hidden Markov Model, HMM) 词 性 标注 ,最 大 焙 (Maximum 
Entropy, ME) 命 名 实体 识别 和 N 元 语法 模型 (N-gram) 等 。 

1. HMM 模型 词性 标注 

当 马尔 科 夫 模型 中 的 状态 对 于 外 界 来 说 不 可 见 的 时 候 , 就 转换 成 隐 马 尔 科 夫 模型 
(HMM)。 一 般 来 说 ,HMM 是 一 种 随机 模型 ,适合 非常 随机 序列 ,具有 统计 特性 ,可 以 用 于 
处 理 多 个 不 同 平稳 状态 过 程 中 的 随机 转移 。HMM 是 一 个 双重 随机 过 程 ,其 中 的 一 重 随机 
过 程 是 描述 基本 的 状态 转移 ,而 另 一 重 随机 过 程 是 描述 状态 与 观察 之 间 的 对 应 关系 。 
HMM 适合 序列 标注 问题 , 即 给 定 一 个 观察 序列 X 一 {zi'zz,…'zw), 求 出 最 适合 这 个 观察 
序列 的 标记 序列 了 二 {yi ,yz,…,yn} ,使 得 条 件 概 率 p(Y|X) 最 大 。HMM 中 ,条 件 概 率 通 
过 贝 叶 斯 原理 变换 后 求 得 





pYPCX | Y) 
Dp VpXIY) 
在 序列 标注 任务 中 ,X 是 一 个 给 定 的 观察 序列 , 式 (3-14) 中 的 分 母 对 所 有 的 X 相同 , 因 
此 可 以 不 予 考虑 ,同时 应 用 联合 公式 可 得 


p(X|1Y)= (3-14) 








oe PX)plY | X) 
YY argmax p(Y | X) argmax XI 


即 隐 马尔 科 夫 模型 实质 上 是 求解 一 个 联合 概率 。 式 (3-15) 中 编辑 序列 Y 即 可 作为 一 个 马尔 
科 夫 链 , 进 一 步 对 式 (3-15) 应 用 乘法 公式 : 


argmaxp (X.Y) (3-15) 


p(Tim? Ym) = TpCxi,y) | Zi Yi) 


plxi | Ti YI) Py: | Ti V1) (3-16) 


i 


式 (3-16) 中 ,zi 二 T1299Ti9y1i 王 J19y29"… yi 1<i 和 xz。 式 (3-16) 给 出 了 不 作 任何 假 


设 的 理想 化 的 序列 标注 的 概率 模型 。 序 列 标注 的 任务 便 是 寻找 一 个 最 佳 的 标注 序列 区 ,使 
得 式 (3-16) 最 大 , 即 
Y= argmax plY | X) 
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= argmax [[ plzi | zi yr) ply | Theis yu) (3-17) 
i=1 


式 (3-17) 虽 然 反映 了 理想 状况 下 标注 序列 的 模型 ,但 是 在 求解 该 模型 时 需要 估计 的 参 
数 空间 太 大 ,无 法 完成 操作 。 为 此 , 隐 马 尔 科 夫 模型 作 如 下 假设 。 
假设 一 : 标注 的 w 出 现 只 和 有 限 的 前 N 一 1 个 标记 相关 , 即 n-pos 模型 : 
plyi | ziyyirl) ST plyi | yi) ST plyi | yintis YNt2 "syi1) (3-18) 
如 果 N=2, 则 是 常用 的 一 阶 隐 马尔 科 夫 模型 。 
假设 二 : 一 个 观察 值 x; 的 出 现 不 依赖 于 前 面 的 任何 观察 值 ,只 依赖 于 前 面 的 标记 ,并 
进一步 假设 只 和 该 观察 值 的 标记 w 相关 , 即 
plxi | zolyyai) A pxi | yi) ST plxi | yi) (3-19) 
由 式 (3-18) 和 式 (3-19) 可 以 将 一 阶 隐 马尔 科 夫 模型 式 (3-17) 重 写 如 下 : 














plY | X) = [ply: | ye pri lw) (3-20) 


其 中 ,p(xzi|yi) 被 称 为 发 射 概率 ,p(yi|yi-1) 被 称 为 转移 概率 。 
隐 马 尔 科 夫 模型 有 3 个 基本 问题 
(1) 估 值 问题 。 假 设 已 有 一 个 HMM ,其 转移 概率 和 发 射 概率 均 已 知 。 如 何 计算 该 模 
型 产生 某 一 个 观测 序列 的 概率 。 
(2) 解码 问题 。 假 设 有 一 个 HMM 和 它 所 产生 的 一 个 观察 序列 ,决定 最 有 可 能 产生 这 
个 观测 序列 的 隐 状 态 序列 。 
(3) 学 习 问 题 。 怎 样 调整 现 有 的 模型 参数 ,使 其 描述 给 定 观察 序列 最 佳 , 即 使 得 给 定 观 
察 序列 概率 最 大 。 
对 于 以 上 3 个 问题 的 行为 ,衍生 出 了 5 个 算法 。 这 5 个 算法 都 是 动态 规划 算法 。 在 实 
际 使 用 HMM 模型 的 时 候 , 模 型 的 转移 概率 和 发 射 概率 的 估计 方式 通常 有 两 种 : 无 指导 的 
Baum-Welch 重 估算 法 ( 即 Forward-Backward 算法 ) 和 有 指导 的 极 大 似 然 估 计 方 法 (MLE) 。 
对 于 HMM 进行 序列 标记 而 言 .最 后 为 了 字 节 最 好 的 一 个 标记 序列 ,需要 对 所 有 可 能 的 路 
径 寻 优 , 即 解码 。 常 用 的 解码 方法 是 Viterbi 算法 。 
2. ME 模型 
最 大 炉 (ME) 模 型 是 通过 求解 一 个 有 条 件 约束 的 最 优化 问题 来 得 到 概率 分 布 的 表达 
式 。 假 设 现 有 nn 个 学 习 样 本 (zi,y1) (zz,y2),… (zs,yn) ,其 中 xz; 是 由 & 个 属性 特征 构成 
的 样本 向 量 z; 二 {ra ,zz，… ,za),yi 是 类 别 标记 y;EY。 所 要 求解 的 问题 是 ; 在 给 定 一 个 
样本 x 的 情况 下 ,其 最 佳 的 类 别 标记 是 什么 。 
最 大 信 的 目标 函数 被 定义 如 下 : 
H(p) =— >) Bl)ply | zx)logply | x) (3-21) 
式 (3-21) 即 为 条 件 炉 ,也 就 是 说 最 大 炉 模型 要 求 信息 系统 的 目标 状态 的 条 件 炉 取得 最 
大 值 , 同 时 要 求 满足 下 述 两 个 条 件 : 
P= {| Ef = EE (3-22) 
Dplylzx)=1 (3-23) 


式 中 f; 是 定义 在 样本 集 上 的 特征 函数 ,Esf; 表示 特征 f; 在 模型 中 的 期 望 值 ,E5 f; 表示 特 
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征 fi 在 训练 集 上 的 经 验 期 望 值 。 两 种 期 望 分 别 定义 如 下 : 
Esfi = >) 方 (z)pCy | fi(y zr) 


(3-24) 
Efi= 》 六 yz)FCy,z) 一 误 忆 Po) 
Ch 二 
1 ify=y andh(zx) = TRUE 
a | (3-25) 
0 else 


其 中 h(x) 为 谓词 函数 ,其 类 型 的 个 数 和 系统 特征 模板 的 类 型 个 数 相 等 。 通 过 对 式 (3-21)、 
式 (3-22) 和 式 (3-23) 进 行 拉 格 朗 日 变换 ， pa 


ply| z) 一 -em (2 (y,7)) (3-26) 


2(T) 三 > )exp( Difi(y,z)) (3=27) 


Xi 是 特征 f; 对 应 的 拉 格 朗 日 系数 ,只 能 通过 数值 计算 方法 求 得 。 在 最 大 炉 模型 中 ,最 多 被 
使 用 的 参数 估计 是 GIS (Generalize Iterative Scaling) 算 法 ,在 实践 中 ,为 了 计算 方便 ,需要 
把 指数 形式 变换 为 对 数 形式 ,所 以 最 大 焙 模 型 也 是 对 数 线性 模型 的 一 种 。 

最 大 焙 模 型 本 身 是 分 类 模型 ,在 解决 序列 标注 问题 时 ,需要 辅 以 一 定 的 搜索 策略 。 最 大 
的 序列 标注 方法 可 采用 顺序 标注 , 即 假设 标注 序列 {4 ,12，… ,tr) , 则 在 利用 分 类 方法 标注 己 
后 ,顺序 标记 tz ,t3，…，,t,。 然 而 这 种 标注 方法 往往 没有 考虑 ti+1 的 变化 对 于 的 影响 。 实 
质 上 ,对 于 序列 标注 , 若 能 考虑 标注 序列 内 部 标记 的 影响 ,往往 能 够 获得 更 好 的 标注 效果 。 
给 定 一 个 句子 ,包含 nn 个 词 ,分 别 为 {t,twz，… ,ww,) ,一 个 对 应 的 标注 序列 {4 ,ta ,4,) 的 
条 件 概率 为 


访 O | ses) = [pC | hi) (3-28) 
i=1 


其 中 访 是 第 i 个 词 w; 所 对 应 的 上 下 文 环境 。 从 式 (3-28) 可 以 看 出 ,处 理 序列 标注 问题 ,可 
以 枚 举 出 对 应 句子 的 所 有 标注 序列 的 候选 ,并 且 将 输出 的 概率 值 最 大 的 一 个 标注 序列 作为 
答案 。 常 见 的 搜索 算法 主要 有 Viterbi 算法 ,另外 就 是 Beam Search 算法 。Beam Search 算 
法 其 实质 是 一 个 宽度 优先 搜索 (Breadth First Search) 。 为 了 避免 搜索 过 程 中 的 组 合 爆炸 问 
题 , 对 每 一 步 后 续 的 所 有 候选 中 ,只 有 前 K 个 最 优 的 候选 进行 扩展 ,其 他 的 通过 剪 枝 处 
理 掉 。 

3. N-gram 模型 


N-gram 模型 是 目前 各 种 统计 计算 方法 中 应 用 最 普遍 且 效 果 最 好 的 基于 离散 Markov 
的 模型 。n 取 2 和 3 时 分 别 叫 Bi-Gram 和 Tri-Gram。N-Gram 统计 计算 语言 模型 的 思想 
一 个 单词 的 出 现 与 其 上 下 文 环境 (Context) 中 出 现 的 单词 序列 密切 相关 ,第 7 个 词 的 出 
现 只 与 前 面 n 一 1 个 词 相 关 , 而 与 其 他 任何 词 都 不 相关 , 设 WiW…W 是 长 度 为 n 的 字 串 ， 
则 字 串 W 的 似 然 度 用 方程 表示 如 下 : 
pW) = pWi | Wi Wi sa We) (3-29) 
式 (3-29) 表 明 ,在 N-Gram 中 ,每 一 个 词 出 现 的 概率 仅仅 与 前 面 "一 1 个 最 近 词 有 关 , 根 据 离 
散 Markov 模型 的 定义 可 知 , 它 相当 于 ?一 1 阶 Markov 模型 。 当 p(W) 的 值 超过 一 定 的 国 
值 时 ,表明 这 个 字 的 结合 能 力 强 , 可 以 认为 它们 是 一 个 词 。 
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根据 大 数 定 理 , 可 以 通过 统计 大 量 训练 (学 习 ) 样 本 中 字 串 Wi-aniWi-wt2…Wi-1Wi 的 
出 现 次 数 /COW- WiW;) 来 计算 。 
fWiri Wnt Wi Wi) 
2 f (Win Winta"" Wi Wi) 





pWi | WiW- Wi) 一 (3-30) 
不 难看 出 ,为 了 预测 词 W， 的 出 现 概率 ,必须 知道 它 的 前 面 所 有 词 的 出 现 概率 。 从 计算 上 来 
看 ,这 种 方法 太 复杂 了 。 如 果 任 一 词 W; 的 出 现 概率 只 同 它 前 面 的 两 个 词 有 关 , 问 题 就 可 以 
得 到 极 大 的 简化 。 这 时 的 语言 模型 叫 作 Tri-gram 模型 。 

pW pWI pW | Wi) [ pW | WiaWin) (3-31) 
符号 概率 [] pCWi | Wi-:Wi1) 表示 连 乘 。 一 般 来 说 , N 元 模型 就 是 假设 当前 词 的 出 现 概 


率 只 与 同 它 前 面 的 N 一 1 个 词 有 关 。 重 要 的 是 ,这 些 概率 参数 都 是 可 以 通过 大 规模 语料库 
来 计算 的 。 比 如 3 元 概率 有 


pWi | WisWi) ~ count(Wis Wi Wi) 


count (Wi Wi1) 
式 中 count() 是 词 频 函数 ,表示 一 个 特定 词 在 整个 语料库 中 出 现 的 统计 次 数 。 

统计 语言 模型 有 点 像 天 气 预报 中 使 用 的 概率 方法 ,用 来 估计 概率 参数 的 大 规模 语料库 
好 比 一 个 地 区 历年 积累 起 来 的 气象 记录 。 例 如 ,用 3 元 模型 来 进行 天 气 预报 ,就 如 同 是 根据 
前 两 天 的 天 气 情况 来 预测 当天 的 天 气 情 况 。 天 气 预报 虽然 没有 做 到 百分之百 准确 ,但 是 其 
高 效 的 预测 已 经 成 为 实用 的 生活 助手 。 因 此 ,采用 3 元 统计 模型 实现 词 频 统计 是 一 种 常用 
的 方法 。 


3.6.2 文本 语义 分 析 方 法 


文本 语义 分 析 (Text Semantic Analysis) 是 将 句子 转化 为 某 种 可 以 表达 句子 意义 的 形 
式 化 表示 ,即将 人 类 能 够 理解 的 自然 语言 转化 为 计算 机 能 够 理解 的 形式 语言 ,做 到 人 与 机 器 
相互 沟通 。 语 义 分 析 解 决 的 是 句 中 的 词 ,短语 直至 整个 句子 的 语义 的 问题 ,通过 语义 分 析 找 
出 语义 、 结 构 意 义 及 其 结合 意义 ,从 而 确定 语言 所 表达 的 真正 含义 或 概念 。 语 义 分 析 方 法 包 
括 词义 消 歧 、 信 息 抽取 和 感情 倾向 性 分 析 内 容 。 

1. 词义 消 歧 

词义 消 歧 (Word Sense Disambiguation) 是 对 多 义 词根 据 上 下 文 给 出 它 所 对 应 的 语义 编 
码 , 该 编码 可 以 是 词典 释义 文本 中 该 词 所 对 应 的 某 个 义 项 号 ,也 可 以 是 义 类 词典 中 相应 的 义 
类 编码 。 词 义 消 歧 在 自然 语言 处 理 的 许多 方面 都 有 很 重要 的 用 途 。 汉 语 多 义 词 (歧义 词 ) 在 
词典 中 只 占 总 词语 量 的 10% 左 右 , 大 约 有 8000 个 多 义 词 。 目前 词义 消 歧 的 主要 对 象 是 多 
义 实 词 , 主 要 是 名 词 .动词 ,形容词 三 大 类 ,其 中 ,动词 在 实 词 词义 消 歧 中 占有 特殊 地 位 。 

利用 机 器 学 习 理 论 进行 词义 消 歧 的 方法 可 以 分 为 两 种 : 有 指导 方法 和 无 指导 方法 。 这 
种 划分 的 依据 基于 该 方法 是 否 利 用 了 手工 标注 语 料 。 有 指导 的 词义 消 歧 模 型 需要 事先 对 训 
练 语 料 进 行 歧 义 标注 ,而 无 指导 的 方法 没有 此 要 求 。 在 有 指导 词义 消 歧 方面 , 刘 亚 涛 等 人 提 
出 了 一 种 基于 义 原 同 现 有 频率 的 汉语 词义 无 指导 消 歧 方法 。 


(3-32) 





60 网 络 信息 内 容 安 全 





1) 有 指导 的 词义 消 歧 

词义 消 歧 需要 根据 上 下 文 语 境 来 确定 正确 的 词义 ,这 是 一 个 典型 的 分 类 问题 。 设 词 条 
ww 有 nn 个 词义 {S1,S:,…,S,}, 上 下 文 语 境 为 C, 词 义 消 歧 的 任务 就 是 根据 上 下 文 C 来 确定 
正确 的 词义 S': 

S’ 一 argmax P(Si/C) (3-33) 
因此 在 现 有 指导 的 词义 消 歧 中 ,很 多 机 器 学 习 方 法 用 于 其 中 ,如 贝 叶 斯 分 类 器 ,决策 树 和 决 
策 表 算法 、 最 大 炉 模 型 以 及 支持 向 量 机 等 。 特 征 选 择 也 是 对 有 指导 的 词义 消 歧 中 的 重要 步 
又 ,特征 选择 就 是 在 一 定 的 上 下 文 语 境 C 中 选择 最 有 效 的 消 歧 特征 。 词 义 消 歧 研 究 中 用 到 
的 上 下 文 特征 主要 是 以 下 4 个 层面 : 话题 .词汇 ,句法 和 语义 。 

话题 层面 的 消 歧 特征 主要 是 用 于 一 定 上 下 文中 的 词 来 表示 , 即 词 袋 (Bag of Words， 
BOW)。 词 汇 层 面 的 消 歧 特征 主要 有 局 部 词 (LW)、 局 部 词性 (POS) .局 部 (CON) 等 。 话 题 
层面 和 词汇 层面 的 消 歧 特征 来 自 于 句子 的 表层 信息 ,只 需要 进行 基本 的 词语 切 分 和 词性 标 
注 即 可 方便 地 获得 ,而 且 也 可 以 得 到 较 高 的 消 歧 准确 率 , 可 称 为 词义 消 歧 的 基本 特征 。 有 指 
导 词 义 消 歧 的 研究 中 一 般 都 要 使 用 这 两 类 特征 ,只 有 在 具体 运用 时 会 稍 有 变化 ,例如 词 袋 是 
否 包括 虚词 等 。 

句法 层面 的 消 歧 特 征 主 要 是 句法 结构 信息 。 词 义 消 歧 常 用 的 句法 信息 包括 : 是 否 带 有 
主语 、 主 语 的 中 心 词 ; 是 否 带 有 宾语 、 宾 语 的 短语 类 、 宾 语 的 中 心 词 ; 是 否 带 有 VP 类 补 语 ; 
是 否 在 句法 关系 的 基础 上 加 上 了 语义 类 信息 。 有 研究 表明 ,将 人 工 标 注 的 语义 角色 
(Semantic Role) 用 于 词义 消 歧 时 , 消 歧 准 确 率 在 句法 特征 的 基础 上 又 提高 了 约 3%。 句 法 
特征 和 语义 特征 确实 可 以 提高 词义 消 歧 准确 率 , 但 需要 付出 的 前 期 劳动 却 是 巨大 的 。 句 法 
特征 的 获取 需要 一 个 高 效 的 句法 分 析 器 ,语义 特征 的 获取 需要 一 个 高 效 的 稳定 语义 角色 标 
注 器 。 另 外 ,高 效 的 句法 分 析 器 和 语义 角色 标注 器 一 定 程度 上 又 依赖 于 高 效 的 词义 标注 器 。 

2) 无 指导 的 词义 消 歧 

为 解决 消 歧 知识 获取 瓶颈 的 问题 ,无 指导 的 词义 消 歧 方法 需要 从 无 人 工 标注 的 资源 中 
挖掘 可 用 于 词义 消 歧 的 信息 。 那 么 ,具体 需要 什么 信息 ? 这 些 信息 从 哪里 来 ? 如 何 才能 得 
到 这 些 信 息 ? 这 些 都 是 无 指导 方法 必须 要 考虑 的 问题 。 

从 词义 消 歧 任 务 的 实际 效果 来 看 .无 指导 方法 的 性 能 较 有 指导 及 半 指 导 方法 的 性 能 要 
差 。 但 是 由 于 其 无 须 人 工 标 注 的 训练 语 料 ,在 性 能 提高 到 一 定 程度 的 时 候 却 更 有 和 希望 能 够 
进行 大 规模 应 用 。 

无 指导 方法 所 获得 知识 的 来 源 大 体 有 : 单 语料库 、 双 (多 ) 语 料 库 .词典 以 及 Web 等 。 
目前 无 指导 方法 已 经 逐渐 体现 出 多 种 知识 源 合 用 的 趋势 ,特征 是 单独 利用 词典 的 无 指导 方 
法 已 经 不 多 见 。 无 指导 的 消 歧 方法 依据 所 用 资源 大 致 可 以 分 为 4 种 : 自动 聚 类 词义 辨析 的 
方法 .自动 获取 标记 语 料 的 方法 .双语 料 法 及 基于 Web 的 方法 。 从 各 类 无 指导 词义 消 歧 方 
法 的 分 析 中 可 以 发 现 , 由 于 首要 问题 是 如 何 从 含 “ 隐 性 知识 ”的 知识 源 中 得 到 “ 显 性 知识 ”, 而 
后 再 针对 “ 显 性 知识 ”进行 利用 ,因此 ,该 类 方法 最 关键 的 问题 是 知识 获取 及 利用 方法 。 

3) 词义 消 歧 算法 

一 般 认 为 ,词语 的 不 同意 义 在 句法 组 合 上 会 显现 差异 ,当今 的 词汇 语义 研究 主要 根据 词 
语 的 句法 分 布 来 分 析 词 义 。 本 小 节 采 用 《现代 汉语 语法 信息 词典 ) 进 行 词义 消 歧 , 该 词典 以 
复杂 特征 集 为 形式 手段 ,以 词类 为 纲 , 描 述 了 词语 不 同意 义 的 组 合 特征 。 例 如 ,动词 “保管 
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的 属性 特征 描述 如 表 3-7 所 示 。 
表 3-7 《现代 汉语 语法 信息 词典 ) 中 “保管 "的 属性 特征 描述 





词语 。 同形 释义 体 谓 准 ” 动 趋 。” 动 介 着 7 过 重要 aabb ”备注 

保管 @@ 保藏 ,管理 体 趋 在 着 了 过 ABAB 一 粮食 

保管 © 担保 ,有 把 握 谓 一 甜 
“词语 、 同 形 、 体 谓 准 ……” 都 是 属性 名 (Attribute) “保管. 中、 谓 ……” 是 相对 应 的 属性 


值 (Value)。 表 3-7 清晰 地 展示 出 了 “保管 @ ”和 ”保管 四 ?在 句法 组 合 上 的 差异 , 借 此 差异 可 
正确 分 辨 出 同形 。 例 如 下 面 的 句子 : 

这 份 资料 你 先 保管 着 ,下 午 再 交 。 

“保管 中 ”的 属性 "着 了 过 一 着 了 过 ”，… 保 管 @” 的 属性 “着 了 过 一 否 ”, 由 此 可 判定 例句 中 
是 保管 四。 对 于 一 个 词 条 的 多 个 同形 条 目 ,同一 个 属性 字段 相 异 的 取 值 即 构成 同形 词 之 间 
的 区 别 特征 (Distinguish Features)。 例 如 ,对 于 “保管 “着 了 过 三 着 了 过 ”构成 “保管 四 ”区 
别 于 “保管 @” 的 一 个 属性 特征 ,“ 体 谓 准 三 谓 ” 构 成 “保管 @” 区 别 “ 保 管 ” 的 一 个 属性 特征 。 
词语 W 可 区 分 为 n 个 同形 S1,S;,…,S,(n 之 1) ,同形 S; 用 复杂 特征 集 来 描述 ; 








fi 三 vl 
一 也 

ee (3-34) 
Cm = Um 





词语 W 的 不 同 同形 S;,S; 存在 相同 的 属性 特征 fi, 设 Si(f4 二 va) ,sj(fr 王 wy) ,着 vs 
vw : 则 称 fi 二 vw 是 对 S; 的 区 别 特征 ,对 应 的 f= 二 vs 是 S; 对 Si 的 区 别 特 征 。 

基于 词 条 语法 属性 的 词义 消 歧 的 基本 思路 是 : 检查 待 消 歧 的 目标 多 义 词 所 在 的 上 下 文 
是 否 满足 字典 中 特定 同形 的 属性 特征 约束 ,车 满足 , 则 确定 为 该 同形 的 意义 。 上 下 文 语 境 是 
词义 消 歧 的 知识 来 源 , 语 境 范围 的 选取 会 影响 到 消 歧 的 效率 。 本 小 节 以 多 义 词 所 在 句子 作 
为 上 下 文 语 境 范围 ,词义 消 歧 算法 描述 如 图 3-4 所 示 。 








算法 WSD: 词 义 消 歧 算 法 

输入 : 待 消 歧 的 词 条 

输出 : 消 歧 后 的 词 条 

Q@ 依据 (现代 汉语 语法 信息 词典 ), 对 每 一 个 多 义 词 W, 比 较 不 同 同形 的 属性 特征 进而 找 出 相互 之 间 的 肯 
定性 区 别 特征 ,对 每 一 个 同形 S;, 以 fi 二 vs 的 形式 列 出 其 表 定 区 别 特 征 ,对 每 一 个 多 义 词 W 生成 一 个 属性 特 
征文 件 W_Lex_Rule( 如 上 文 “ 保 管 . txt”); 

加 定位 目标 多 义 词 W, 以 句子 范围 作为 上 下 文 语 境 C; 

图 对 W 的 不 同 同形 赋值 S;* Score 一 0， 

@ 检索 文件 W_Lex_Rule, 提 取 同 形 S; 的 肯定 性 区 别 特征 ,判断 W 所 在 的 上 下 文 C 是 否 满足 约束 条 件 ， 
车 满足 , 则 S,。 Score 二 Si， Score 十 1; 

回 若 文件 W_Lex_Rule 中 属性 特征 列表 非 空 , 则 重复 @; 

@ Score 取 最 大 的 同形 5; 为 标注 结果 。 











3-4 词义 消 歧 算 法 WSD 
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2. 信息 抽取 

信息 抽取 (Information Extraction,IE) 最 早 是 在 Frump 系统 背景 下 提出 的 ,后 来 得 到 
了 美国 政府 资助 的 MUC(Message Understanding Conference) 系 列 会 议 的 支持 。 

信息 抽取 是 自然 语言 处 理 领 域 的 重要 研究 方向 之 一 ,其 研究 内 容 包 括 实体 识别 (Named 
Entity Recognition, NER)、 术 语 自 动 识别 (Term Extraction Automatically, TEA) 和 关系 抽 
取 。 命 名 实体 识别 包括 中 国 姓名 、 中 国 地 名 、 组 织 机 构 、 英 译名 的 自动 辨识 , 即 是 通常 说 的 未 
登录 词 的 自动 辨识 问题 。 胡 文敏 等 提出 了 一 种 基于 卡 方 检验 的 汉语 术语 抽取 方法 : 先 从 网 
络 上 下 载 语 料 , 然 后 使 用 改进 的 互信 息 参 数 抽 取 结 构 简 单 的 合 串 , 并 在 此 基础 上 进一步 使 用 
卡 方 检验 结合 子 串 分 解 方法 抽取 具有 复杂 结构 的 合 串 。AIRS 2008 会 议 上 介绍 了 一 种 上 下 
位 关系 (hyponymy 或 IS-A) 自 动 获取 的 方法 。 该 方法 基于 两 个 假设 : 一 是 相同 的 术语 类 型 
具有 相似 的 上 下 文 ; 二 是 两 个 术语 如 果 具 有 上 下 位 关系 , 则 可 被 相似 属性 的 名 词 和 领域 动 
词 所 描述 。 

信息 抽取 有 两 个 特点 : 一 是 想 获得 的 知识 可 以 通过 相对 简单 和 固定 的 模板 或 带 有 槽 的 
框架 来 进行 描述 ; 二 是 文本 中 只 有 一 小 部 分 信息 需要 填 人 模板 或 框架 ,其 他 的 都 可 以 被 忽 
略 。 最 简单 的 信息 抽取 是 实体 抽取 ,没有 框架 ,只 有 实体 类 型 。 

图 3-5 给 出 了 信息 抽取 过 程 的 示意 图 。 其 中 ,信息 抽取 引擎 的 输入 是 一 组 文本 ,引擎 通 
过 使 用 一 个 统计 模块 一 个 规则 模块 或 者 两 个 的 混合 进行 信息 抽取 。IE 引擎 的 输出 是 一 组 
从 文本 中 抽取 的 标注 过 的 框架 , 即 填 好 的 一 张 表 。 目 前 ,从 文本 中 可 以 抽取 到 以 下 4 种 基本 
类 型 的 元 素 : 

(1) 实体 。 实 体 是 文本 中 的 基本 构成 模块 ,如 人 公司、 地 址 等 。 

(2) 属性 。 属 性 是 所 抽取 实体 的 特征 ,如 人 的 年 龄 .头衔 .组 织 的 类 型 。 

(3) 关系 。 实 体 之 间 存 在 的 联系 即 为 事实 ,如 公司 与 员工 之 间 的 雇佣 关系 、 两 个 公司 之 
间 的 关联 关系 等 。 

(4) 事件 。 事 件 是 实体 的 行为 或 实体 因为 兴趣 而 参加 的 活动 ,如 参加 一 次 有 组 织 的 旅 
游 . 两 个 公司 之 间 的 合并 ,一 次 突 发 意外 等 。 




















规则 模块 | | 一 一 一 | | IE 引 党 -—| | 统计 模块 | 
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图 3-5 信息 抽取 过 程 示 意图 





3. 情感 倾向 性 分 析 

文本 情感 倾向 性 分 析 ,就 是 对 一 篇 文章 进行 情感 色彩 判断 。 具 体 来 说 ,就 是 对 说 话 人 的 
态度 (或 称 观点 .情感 ) 进 行 分 析 , 即 对 文本 中 的 主观 性 信息 进行 分 析 。 由 于 立场 .出 发 点 、 个 
人 状况 和 偏好 的 不 同 , 民 众 对 生活 中 各 种 对 象 和 事件 所 表达 出 的 信念 .态度 .意见 和 情绪 的 
倾向 性 必然 存在 很 大 的 差异 。 在 论坛 .博客 等 网 络 媒体 上 ,这 种 差异 表现 得 尤为 明显 。 

文本 倾向 性 分 析 近 年 来 已 经 成 为 自然 语言 处 理 中 的 一 个 热点 问题 。 文 本 所 蕴含 的 情感 
(Emotion) 和 观点 (Opinion) 和 皆 是 人 物 主观 意愿 的 反映 ,情感 表达 人 物 自身 的 情绪 起 伏 , 如 快 
乐 . 悲 伤 等 ; 观点 则 表达 人 物 对 外 界 事物 的 态度 ,如 赞成 .反对 等 。 其 中 ,对 于 文本 情感 的 研 
究 正 得 到 越 来 越 多 研究 者 的 关注 。 在 ACL、SIGIR 等 国际 会 议 上 ,针对 这 一 问题 的 文章 已 
开始 出 现 ; 而 对 于 文本 观点 倾向 性 的 研究 ,国外 早已 开展 得 如 火 如 茶 , 这 类 文章 在 WWW、 
CIKM SIGHAN 等 顶级 会 议 上 层出不穷 ; 针对 倾向 性 分 析 的 国际 评测 也 已 经 开展 ,例如 
TREC Blog Track 以 及 NTCIR 等 。 


识别 出 网 页 文本 中 的 倾向 性 语言 是 正确 开展 网 络 熏 情 

倾向 性 判断 .屏蔽 不 良 网 页 .维护 网 络 安全 的 关键 工作 之 一 。 
本 小 节 介绍 网 页 情感 倾向 性 分 析 的 具体 过 程 。 该 方法 从 中 

文 网 络 与 情 采 集 入 手 , 借 助 中 科 院 中 文 分 词 软件 ICTCLAS 

完成 中 文 分 词 ,充分 考虑 网 络 和 与 情 信息 表达 的 复杂 性 与 共享 网 络 必 由 HeniiN5 
性 ,把 网 络 与 情 倾向 性 分 析 模块 分 解 为 词语 情感 贷 向 性 分 


析 、 句 子 情 感 倾 向 性 分 析 和 篇 章 情感 倾向 性 研究 3 个 子 模 [EX 
块 ,如 图 3-6 所 示 。 

1) 词语 情感 倾向 性 分 析 子 模块 

词语 情感 倾向 性 研究 是 倾向 性 研究 工作 的 前 提 。 具 有 
情感 倾向 的 词语 以 名 词 动词 .形容 词 和 副词 为 主 ,也 包括 人 
名 、 机 构 名 、 产 品名 、 事 件 名 等 命名 实体 。 其 中 , 除 部 分 词语 
的 训 贬 性 (或 称 为 极 性 ,通常 分 为 讲义 、 贬 义 和 中 性 3 种 ) 可 
以 通过 查 词典 @ 的 方式 得 到 之 外 ,其 余 词语 都 无 法 直接 获得 。 

词语 情感 倾向 性 分 析 包 括 对 词语 极 性 .强度 (如 * 遗 责 ” 
强度 远 超过 “批评 ”) 和 上 下 文本 模式 的 分 析 , 分 析 其 至 可 以 
写 入 词典 中 。 词 语 情感 计算 的 方法 有 关键 词 测定 (Keyword ”图 3-6 网 络 与 情 情 感 倾向 性 
Spotting)、 词汇 类 同 (Lexical Affinity )、 统 计 方法 分 析 模 块 结构 
(Statistical Methods) .手工 制作 模式 (Hand Craft Models ) 
等 。 具 体 实现 可 归纳 为 以 下 三 种 。 

(1) 由 已 有 的 电子 词典 或 词语 知识 库 扩展 生成 情感 倾向 词典 。 如 英文 词语 情感 倾向 词 
典 WordNet 中文 词 语 情感 倾向 词典 HowNet。 这 种 方法 的 种 子 词 数量 的 依赖 比较 明显 。 

(2) 无 监督 机 器 学 习 方法 。 这 种 方法 以 词语 在 语料库 中 的 词 频 同 现 情况 判断 其 联系 紧 
密 程 度 , 与 第 (1) 种 方法 相 比 ,这 种 方法 的 噪声 比较 大 。 
































判断 结果 输出 


@® http://www. keenage. com 
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(3) 基于 人 工 标注 语料库 的 学 习 方法 。 首 先 对 情感 倾向 分 析 语料库 进行 手工 标注 。 标 
注 的 级 别 包括 文档 集 的 标注 ( 即 只 判断 文档 的 情感 倾向 性 ) ,短语 级 标注 和 分 句 级 标注 。 在 
这 些 语 料 的 基础 上 ,利用 词语 的 共 现 关系 ,搭配 关系 或 者 语义 关系 ,以 判断 词语 的 情感 倾向 
性 。 这 种 方法 需要 大 量 的 人 工 标注 语料库 。 

2) 句子 情感 倾向 性 分 析 子 模块 

句子 情感 倾向 性 分 析 的 处 理 对 象 是 在 特定 上 下 文中 出 现 的 语句 。 其 任务 是 对 句子 中 的 
各 种 主观 性 信息 进行 分 析 和 提取 ,包括 对 句子 情感 倾向 性 的 判断 ,以 及 从 中 提取 出 与 情感 倾 
向 性 论述 相关 联 的 各 个 要 素 , 包 括 情感 倾向 性 论述 的 持 有 者 、 评 价 对 象 倾 向 极 性 、 强 度 ,其 
至 是 论述 本 身 的 重要 性 等 。 

通过 对 网 络 一 些 文章 的 分 析 提 取 , 得 到 以 下 16 个 句子 结构 作为 句子 结构 分 析 的 模板 
库 , 参 见 表 3-8。 


表 3-8 句子 结构 分 析 模板 库 
评价 对 象 /s. 十 形容 词 /a /名词 /n. 
评价 对 象 /s. 十 副词 /adv. 十 形容 词 /a. /动词 /v. 
评价 对 象 /s. 十 副词 /adv. 十 动词 /v. 
评价 对 象 /s. 十 形容 词 /a.。 /动词 /v. 十 转折 连词 /副词 /adv. 十 形容 词 /a. /动词 /v. 动词 /v. 十 评价 对 
象 /s. 
副词 /adv. 十 动词 /v. 十 评价 对 象 /s. 
评价 对 象 /s. 十 否定 词 /d. 十 形容 词 /a. /名 词 /n. 
评价 对 象 /s. 十 否定 词 /d. 十 副词 /adv. 十 形容 词 /a. /名 词 /n. 
评价 对 象 /s. 十 否定 词 /d. 十 副词 /adv. 十 动词 /v. 
评价 对 象 /s. 十 形容 词 /a。 /动词 /v. 十 转折 连词 /c. /副词 /adv. 十 形容 词 /a /动词 /v. 
否定 词 /d. 十 动词 /v. 十 评价 对 象 /s. 
否定 词 /d. 十 副词 /adv. 十 动词 /v. 十 评价 对 象 /s. 
评价 对 象 /s. 十 ' 是 ' 动 词 /vs. 十 形容 词 /a. /名 词 /n. 
评价 对 象 /s. 十 副词 /adv. 十 动词 /v. 十 形容 词 /a. /名 词 /n. 
评价 对 象 /s. 十 否定 词 /d. 十 ' 是 ' 动 词 /vs. 十 形容 词 /a. /名 词 /n. 
评价 对 象 /s. 十 否定 词 /d. 十 副词 /adv. 十 动词 /v. 十 形容 词 /a. /名 词 /nn. 








依据 概率 树 分 析 后 ,为 每 种 句 式 设置 一 种 算法 ,并 依照 情感 词 进行 初步 的 句子 倾向 性 的 
判断 。 句 子 倾向 性 分 析 的 步骤 如 下 。 

一 是 通过 情感 词 库 ( 含 襄 义 词 词 库 , 贬 义 词 词 库 ) 中 的 情感 词 定位 含有 情感 词 的 句子 , 通 
过 分 词 结果 的 词性 调用 ,得 到 句子 的 情感 程度 。 

二 是 初步 情感 判断 完成 以 后 ,进行 精细 的 分 级 程度 判断 ,并 依 此 为 结果 ,得 出 句子 的 最 
终 倾 向 值 ,具体 实现 步骤 如 下 。 

第 一 遍 扫 描 序列 ,找到 所 有 程度 副词 (类 别 为 2) ,将 其 程度 值 乘 到 模板 中 离 其 最 近 的 一 
个 1 类 词 的 程度 值 上 (考虑 到 副词 可 能 位 于 其 中 心 词 的 前 面 或 者 后 面 ,所 以 这 里 的 “最 近 ” 是 
前 后 双向 的 查找 ,同时 由 于 副词 在 前 的 情况 比较 多 ,所 以 前 向 查找 的 优先 级 高 )。 具 体 的 处 
理 是 标注 程度 为 3 的 因子 为 1. 5, 程 度 为 2 的 因子 为 1, 程度 为 1 的 因子 为 0. 5。 

第 二 遍 扫描 序列 ,找到 所 有 和 否定 词 (类 别 为 3) ,将 其 往 后 碰 到 的 第 一 个 1 类 词 的 赛 贬 性 
取 反 。 

第 三 遍 扫描 序列 ,以 转折 词 为 单位 将 序列 分 成 几 个 小 部 分 ,对 每 个 小 部 分 累加 其 1 类 词 
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的 褒贬 倾向 值 , 然 后 按 转折 词类 型 的 不 同 乘 以 转折 词 相应 的 权 值 ( 让 步 型 如 "虽然 ”对 位 部 
分 要 减弱 ,因子 为 0.7; 转折 型 如 “但 是 ”, 对 应 部 分 要 加 强 , 因 子 为 1. 3)。 

3) 篇 章 情 感 倾向 性 研究 子 模块 

如 果 说 句子 是 点 ,篇章 则 是 线 。 该 模块 的 主要 功能 就 是 从 整体 上 判断 某 个 文本 的 情感 
倾向 性 , 即 褒贬 态度 。 将 篇 章 作 为 一 个 整体 笼统 地 进行 主观 性 分 析 , 存 在 很 大 的 局 限 性 ,其 
本 质 缺陷 在 于 假设 整体 文本 是 针对 同一 个 对 象 进行 评论 。 而 真实 文本 往往 由 包含 多 个 对 
象 ,不 同 对 象 所 涉及 的 观点 、 态 度 等 主观 性 信息 是 有 差异 的 。 从 另 一 面 看 ,篇 章 内 的 对 象 总 
数 仍 是 有 限 的 ,不 足以 支撑 对 于 整体 倾向 性 的 处 理 。 因 此 ,本 模块 研究 以 篇 章 内 情感 倾向 性 
论述 的 分 析 以 及 在 大 规模 数据 集 上 进行 整体 倾向 性 分 析 为 主要 研究 内 容 。 

设 定 一 定 的 阔 值 ,并 对 含有 情感 的 句子 值 综 合 相 加 ,得 出 篇 章 的 情感 色彩 ,完成 文本 倾向 
性 分 析 。 根 据 得 出 的 网 页 文本 情感 阔 与 设 定 的 阔 值 相 比 较 的 结果 ,将 网 页 分 为 4 级 : 恶性 网 
页 ,消极 网 页 .中 性 网 页 和 积极 网 页 ,如 图 3-7 所 示 。 篇 章 情 感 倾向 性 分 析 算法 如 图 3-8 所 示 。 


一 | 正 向 网 页 上 积极 网 页 


名 类 网 页 | | -| 中 性 网 页 | 

























消极 网 页 








一 负 向 网 页 











恶性 网 页 





图 3-7 网 页 情感 倾向 性 分 类 





Input :一 篇 待 计算 情感 的 文本 /网 页 
Output :该 文本 /网 页 经 计算 后 的 情感 结果 (积极 /消极 /恶意 ) 
for (int nc = 0;nc<ncount;nc++ ) 
{ 
CString getpos (result[ nc]. sP0S) ;// 得 到 文本 全 体 词 的 词性 
//wj 名 号, 全角 :. 半 角 :. ww 问号, 全角:? 半 角 :? 
// 毗 叹 号 ,全 角 :! 半 角 :! Ws 省 上 略 号 ,全 角 :… 半角:… 
证 ( getpos == "wj"|| getpos =="wt" | |getpos == "ww" ||getpos == "ws") 
{ 
finish = nc; 
CSentence cen ( result, start, finish, readtext) ; 
// 调 用 CSentence 中 的 函数 
// 寻 找 句 中 第 (int) ( ends - start ) /2 个 词 
float g = cen.getpolarity (( int ) ( ends— start ) /2 ); 
showresult = showresult + cen. MessageReturn; 
polaritysum += g; 
start = finish+1; 
AllSentence. push_back ( cen ); 











图 3-8 篇 章 情感 倾向 性 分 析 算 法 
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3.6.3 文本 语 用 分 析 方法 


语 用 学 是 一 门 研究 如 何 用 语言 来 达成 一 定 目的 的 学 科 , 即 利用 语 用 学 进行 文本 分 析 , 针 
对 句子 群 (又 称 话题 ,Topic) 开 展 高 端 分 析 , 获 取 对 文本 内 涵 的 掌握 。 话 题 是 有 因果 关系 的 
一 些 句子 ,它们 必须 连贯 (Coherence) ,如 例句 1; 把 可 独立 理解 并 且 是 良 构 的 几 个 句子 放 到 
一 起 的 结果 ,并 不 能 保证 获取 的 是 话题 ,如 例句 2。 

例句 1: 张 玉 把 车 钥匙 和 弄 丢 了 ,她 喝 醇 了 。 

例句 2: 张 玉 把 车 钥匙 弄 丢 了 ,她 喜欢 吃 菠菜 。 

为 完成 文本 因果 关系 提取 ,出 现 了 话题 检测 与 跟踪 方法 ; 为 了 完成 互联 网 上 不 同文 本 
信息 内 容 自动 分 类 ,提出 了 文本 分 类 器 (也 称 为 信息 内 容 过 滤 )。 话 题 检 测 与 跟踪 方法 详 见 
本 书 第 5 章 ; 网 络 信息 内 容 过 滤 方 法 详 见 本 书 第 4 章 。 


3.7 本 章 小 结 


本 章 介绍 了 网 络 信息 内 容 的 预 处 理 技术 ,重点 从 文本 预 处 理 技术 ,文本 内 容 分 析 方法 、 
文本 内 容 安 全 应 用 3 方面 介绍 文本 内 容 安全 状态 。 文 本 预 处 理 技术 涉及 中 文 分 词 技术 、 文 
本 表示 和 文本 特征 提取 ,中 文 分 词 涉 及 机 械 分 词法 .语法 分 词法 。 文 本 表示 介绍 布尔 模型 、 
向 量 空间 模型 和 概率 模型 等 内 容 。 文 本 特征 提取 给 出 了 停 用 词 过 滤 、 文 档 频率 阔 值 法 、 
TFIDF 方法 及 信 噪 比 的 内 容 。 在 文本 内 容 分 析 小 节 , 分 别 从 文本 语法 分 析 、` 语 义 分 析 以 及 
语 用 分 析 3 方面 进行 文本 内 容 分 析 , 从 而 为 后 续 的 文本 处 理 提 供 量化 的 指标 。 本 章 内 容重 
点 是 文本 内 容 预 处 理 技术 ,难点 是 文本 语义 分 析 。 


习 题 


. 简 述 文本 信息 的 语义 特征 。 

. 如何 进 行文 本 特征 提取 ? 

. 词语 情感 倾向 性 分 析 有 哪些 方法 ? 

. 如何 衡量 特征 抽取 过 程 与 选择 过 程 所 造成 的 信息 损失 ? 
. 为 什么 要 进行 特征 重 构 , 常 用 的 方法 有 哪些 ? 


wD 


» 


第 4 章 网 络 信息 内 容 过 小 


4.1 网 络 信息 内 容 过 滤 概 述 


4.1.1 网 络 信息 内 容 过 滤 的 定义 


随 着 Internet 的 飞速 发 展 和 在 世界 范围 的 普及 , 越 来 越 多 的 数据 库 和 信息 不 断 加 入 网 
络 , 网 络 上 的 各 种 信息 正 以 指数 级 的 速度 增长 ,Internet 已 经 发 展 为 当今 世界 上 资料 最 多 、 
门类 最 全 、 规 模 最 大 的 信息 库 和 全 球 范围 内 传播 信息 的 主要 渠道 。Internet 主要 以 超 文本 
的 形式 呈现 给 用 户 各 种 各 样 的 信息 ,构成 一 个 异常 庞大 的 具有 异 构 性 动态 性 和 开放 性 的 分 
布 式 数据 库 。 然 而 ,在 Internet 极 大 丰富 用 户 信息 量 的 同时 ,用 户 也 面临 着 信息 过 载 和 资源 
迷 向 的 问题 。Internet 上 的 信息 过 于 庞杂 ,而 且 具 有 不 稳定 和 变动 快 的 特点 ,缺乏 一 个 权威 
机 构 对 这 些 信息 进行 全 面 的 整理 和 归 类 。 这 一 方面 给 用 户 发 现 信 息 、 利 用 信息 带 来 了 不 便 ， 
男 一 方面 ,无 序 、 庞 大 的 信息 世界 和 成 千 上 万 的 超 链 接 , 又 常常 使 用 户 在 查找 其 所 需 信息 时 
感到 力不从心 。 

早期 解决 这 个 矛盾 主要 采用 信息 检索 技术 。 所 谓 信息 检索 ,也 就 是 我 们 熟知 的 搜索 引 
擎 ,是 指 对 有 序 化 知识 信息 的 检索 查找 ,本 质 上 是 一 种 "人 找 信息 ”的 服务 形态 ,每 次 检索 时 
要 求 用 户 一 次 性 提交 一 个 或 几 个 查询 关键 词 。 当 时 的 搜索 引擎 虽然 算法 简单 ,但 数据 库容 
量 小 ,其 查找 信息 效率 较为 有 效 。 从 1994 年 4 月 Web Crawler 搜索 引擎 在 网 上 正式 发 布 并 
开始 服务 以 来 ,搜索 引擎 已 经 成 为 发 展 最 快 .最 引 人 注 目的 网 络 服务 之 一 。 

当前 ,搜索 引擎 正经 历 着 从 “数量 累积 阶段 "向 “质量 精练 阶段 "的 变革 。 随 着 Internet 
上 的 信息 数量 呈 指 数 级 增长 ,大 量 信息 垃圾 也 混杂 其 中 。 如 何 向 用 户 提供 质量 好 且 数 量 适 
当 的 检索 结果 ,成 为 搜索 引擎 技术 发 展 的 方向 之 一 。 由 于 大 多 数 搜索 引擎 的 搜集 范围 是 综 
合 性 的 ,它们 的 机 器 抓 取 技术 是 尽 其 可 能 地 把 各 类 网 页 “ 抓 ” 回 来 .经 过 简单 的 加 工 后 存放 到 
数据 库 中 备 检 ; 另外 .搜索 引擎 直接 提供 给 用 户 的 检索 途径 大 都 是 基于 关键 词 的 布尔 迎 辑 
匹配 ,返回 给 用 户 的 就 是 所 有 包括 关键 词 的 文献 。 这 样 的 检索 结果 在 数量 上 远 远 超出 了 用 
户 的 吸收 和 使 用 能 力 , 让 人 感到 束手无策 。 这 也 就 是 现在 经 常 谈 论 的 “信息 过 载 交 信息 超 
载 ?现象 。 其 实 ,这 就 是 这 一 代 搜 索引 擎 的 突出 缺陷 : 缺少 智力 ,不 能 通过 “学 习 ” 提 高 自身 
的 检索 质量 。 

针对 网 络 的 日 益 普 及 和 信息 量 的 爆炸 增长 而 导致 的 信息 过 载 、 信 息 污染 等 问题 ,网 络 信 
息 过 滤 技 术 作为 筛选 信息 ` 满 足 用 户 需求 的 有 效 方法 应 运 而 生 。 网 络 信息 过 滤 是 根据 用 户 
的 信息 需求 ,运用 一 定 的 标准 和 工具 ,从 大 量 的 动态 网 络 信息 流 中 选取 相关 的 信息 或 剔除 不 
相关 信息 的 过 程 。 也 就 是 在 设置 好 过 滤 条 件 后 ,在 运行 过 程 中 一 旦 触发 条 件 则 将 有 关 的 信 
息 拒 之 门 外 , 而 其 他 信息 可 以 进入 。 网 络 信 息 过 滤 技 术 的 目的 就 是 让 搜索 引擎 具有 更 多 的 
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“智力 ”, 让 搜索 引擎 能 够 更 加 深入 ,更 加 细致 地 参与 用 户 的 整个 检索 过 程 中 。 从 关键 词 的 选 
择 、 检 索 范 围 的 确定 到 检索 结果 的 精炼 ,帮助 用 户 在 浩如烟海 的 信息 中 找到 和 需求 真正 相关 
的 资料 。 现 在 , Internet 上 已 经 有 很 多 有 关 这 方面 的 研究 ,包括 已 经 部 署 运行 的 信息 过 滤 系 
统 。 这 些 都 表明 了 信息 过 滤 技术 对 于 网 络 发 展 和 应 用 的 重要 意义 。 

相 比 于 信息 检索 技术 ,网 络 信息 过 滤 技 术 是 一 种 更 系统 化 的 方法 ,用 来 从 动态 的 信息 流 
中 抽取 出 符合 用 户 个 性 化 需求 的 信息 ; 而 传统 的 信息 检索 则 是 从 静态 数据 库 中 查找 信息 。 
信息 过 滤 系 统 检查 所 有 的 进入 信息 流 并 与 用 户 需求 进行 匹配 计算 ,只 将 用 户 需要 的 文档 送 
给 用 户 。 相 比 于 传统 的 信息 检索 模式 ,信息 过 滤 技 术 具 有 和 较 高 的 可 扩展 性 ,能 适应 大 规模 用 
户 群 和 海量 信息 ; 可 以 为 用 户 提供 及 时 .个 性 化 的 信息 服务 ,具有 一 定 的 智能 和 较 高 的 自动 
化 程度 。 而 如 何 能 够 更 有 效 更 准确 地 找到 自己 感 兴趣 的 信息 , 滤 除 与 自己 需求 无 关 的 信 
息 ,真正 做 到 “各 取 所 需 ”, 一 直 是 基于 Internet 的 网 络 信息 领域 的 核心 问题 。 网 络 信息 过 滤 
技术 正在 被 越 来 越 多 地 应 用 于 Web 空间 ,并 获得 了 长 足 的 发 展 ,成 为 研究 和 工程 实践 的 热 
点 区 域 。 自 20 世纪 90 年 代 开始 ,相关 主题 的 国际 会 议 不 断 举 行 ,有 力 地 推动 了 网 络 信 息 过 
滤 技 术 的 不 断 完善 和 进一步 深入 。 


4.1.2 网 络 信息 内 容 过 滤 的 原理 


现 有 的 网 络 信息 内 容 过 滤 方 法 较 多 ,从 过 滤 的 手段 来 看 ,可 以 分 为 基于 内 容 的 过 滤 、 基 
于 网 址 的 过 滤 和 混合 过 滤 3 种 。 基 于 内 容 的 过 滤 是 通过 文本 分 析 、 图 像 识 别 等 方法 阻挡 不 
适宜 的 信息 ; 基于 网 址 的 过 滤 是 对 认为 有 问题 的 网 址 进行 控制 ,不 允许 用 户 访问 其 信息 ; 
混合 过 滤 是 将 内 容 过 滤 与 网 址 过 滤 结 合 起 来 控制 不 适宜 信息 的 传播 。 从 是 否 对 网 络 信息 进 
行 预 处 理 来 看 ,信息 过 滤 可 以 分 为 主动 过 滤 和 被 动 过 滤 两 种 。 主 动 过 滤 是 预先 对 网 络 信息 
进行 处 理 , 如 对 网 页 或 网 站 预先 分 级 .建立 允许 或 禁止 访问 的 地 址 列表 等 ,在 过 滤 时 可 以 根 
据 分 级 或 地 址 列表 决定 能 和 否 访问 ; 被 动 过 滤 是 不 对 网 络 信息 进行 预 处 理 , 过 滤 时 才 分 析 地 
址 、 文 本 或 图 像 等 信息 ,决定 是 否 过 滤 。 无 论 采 用 哪 种 过 滤 方 法 ,一 个 最 简单 的 网 络 信息 过 
滤 系 统一 般 包 括 4 个 基本 组 成 部 分 : 信 源 (Information Source) .过 滤器 (Filter) 用户 
(User) .用户 需求 模板 (Profiles) 。 图 4-1 是 信息 过 滤 系 统 的 一 个 简单 结构 图 。 


用 户 需求 模板 


结果 信息 答案 信息 
反馈 信息 


4-1 网 络 信息 内 容 过 滤 基 本 原理 


信 源 向 过 滤器 提供 信息 ,信息 过 滤器 处 于 信 源 与 用 户 之 间 ,通过 用 户 需求 模板 获取 用 户 
的 兴趣 信息 ,并 据 此 检验 信 源 中 的 信息 ,将 其 中 与 用 户 兴趣 相关 的 信息 递送 给 用 户 。 反 过 
来 ,用 户 也 可 以 向 信息 过 滤器 发 送 反馈 信息 ,以 说 明 哪 些 信息 的 确 符合 他 们 的 信息 需求 , 通 
过 这 种 交互 行为 使 得 过 滤器 不 断 进行 学 习 , 调 整 自身 的 过 滤 操 作 , 进 而 能 在 以 后 提供 更 多 更 
好 满足 用 户 兴趣 的 信息 。 
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于 信息 过 滤 的 目的 是 向 用 户 提供 需要 的 信息 。 因 此 ,网 络 信息 内 容 过 滤 系 统 有 以 下 
最 常见 的 特点 。 

(1) 过 滤 系 统 是 为 无 结构 化 和 半 结 构 化 的 数据 而 设计 的 信息 系统 , 它 与 典型 的 具有 结 
构 化 数据 的 数据 库 系统 不 同 。 一 个 电子 邮件 就 是 半 结 构 化 数据 的 例子 , 它 的 头 域 有 明确 的 
定义 ,而 它 的 正文 却 是 半 结 构 化 的 。 

(2) 信息 过 滤 系 统 主要 用 来 处 理 大 量 的 动态 信息 。 非 结构 化 数据 这 个 词 常 用 来 作为 它 
的 同义词 使 用 。 一 些 多 媒体 信息 系统 包含 图 像 .声音 和 视频 信息 。 对 于 这 些 信息 ,传统 的 数 
据 库 系统 没有 进行 很 好 的 处 理 和 表示 。 

(3) 过 滤 系 统 包含 大 量 的 数据 。 一 些 典 型 的 应 用 基本 上 都 要 处 理 G 字 节 以 上 的 正文 信 
息 ,其 他 媒介 比 这 要 大 得 多 。 

(4) 典型 的 过 滤 系 统 应 用 包含 输入 的 数据 流 或 是 远程 数据 源 的 在 线 广播 (例如 新 闻 组 、 
E-mail)。 过 滤 也 用 来 描述 对 远程 数据 库 的 信息 进行 检索 ,可 用 智能 代理 来 实现 。 

(5) 过 滤 是 基于 对 个 体 或 群 组 的 信息 偏好 的 描述 ,也 称 为 用 户 趣 向 。 一 般 来 说 ,这 个 用 
户 趣 向 表示 的 是 用 户 长 久 的 信息 偏好 。 

(6) 过 滤 是 从 动态 的 数据 流 中 收集 或 去 掉 某 些 文本 信息 。 


4.1.3 网 络 信息 内 容 过 滤 的 意义 


网 络 信息 内 容 过滤 具 有 重要 的 现实 意义 和 巨大 的 应 用 价值 ,主要 体现 在 如 下 几 个 方面 。 

1. 改善 Internet 信息 查询 技术 的 需要 

随 着 用 户 对 信息 利用 效率 要 求 的 提高 ,以 搜索 引擎 为 主 的 现 有 网 络 查询 技术 受到 挑战 ,网 
络 用 户 的 信息 需求 与 现 有 的 信息 查询 技术 之 间 的 矛盾 日 益 尖锐 ,其 不 足 主要 有 如 下 几 方 面 。 

(1) 在 使 用 搜索 引擎 时 ,只 要 使 用 的 关键 词 相同 ,所 得 到 的 结果 就 相同 , 它 并 不 考虑 用 
户 的 信息 偏好 和 用 户 的 不 同 ,对 专家 和 初学 者 一 视 同仁 ; 同时 ,返回 的 结果 成 千 上 万 、 参 差 
不 齐 , 使 得 用 户 在 寻找 自己 喜欢 的 信息 时 犹如 大 海 捞 针 。 

(2) 网 络 信 息 是 动态 变化 的 ,用 户 时 常 关心 这 种 变化 。 而 在 搜索 引擎 中 ,用 户 只 能 不 断 
在 网 络 上 查询 同样 的 内 容 , 以 获得 变化 的 信息 ,这 花费 了 用 户 大 量 的 时 间 。 因 此 ,在 现 有 情 
况 下 ,传统 的 信息 查询 技术 已 经 难以 满足 用 户 的 信息 需求 ,对 信息 过 滤 技 术 的 研究 日 益 受 到 
重视 ,把 信息 过 滤 技 术 用 于 Internet 信息 查询 已 成 为 非常 重要 的 研究 方向 。 

2. 个 性 化 服务 的 基础 

个 性 化 的 实质 是 针对 性 , 即 对 不 同 的 用 户 采 取 不 同 的 服务 策略 ,提供 不 同 的 服务 内 容 。 
个 性 化 服务 将 使 用 户 以 最 少 的 代价 获得 最 好 的 服务 。 在 信息 服务 领域 ,就 是 实现 “信息 找 
人 , 按 需 要 服务 ”的 目标 。 既 然 是 “信息 找 人 ”, 那 什么 信息 找 什 么 人 就 是 关键 。 每 个 用 户 都 
有 自己 特定 的 ,长 期 起 作用 的 信息 需求 。 用 这 些 信息 需求 组 成 过 滤 条 件 ,对 资源 流 进行 过 
滤 , 就 可 以 把 资源 流 中 符合 需求 的 内 容 提取 出 来 进行 服务 。 这 种 做 法 就 叫 作 “信息 过 滤 ”, 信 
息 过 滤 是 个 性 化 主动 服务 的 基础 。 利 用 网 络 信息 内 容 过 滤 技 术 有 利于 减轻 用 户 的 认 知 压 
力 。 它 在 为 用 户 提供 所 需要 信息 的 同时 .着重 剔除 与 用 户 不 相关 的 信息 ,从 而 提高 用 户 获 取 
信息 的 效率 ; 它 根据 用 户 信息 需求 的 变化 提供 稳定 的 信息 服务 ,能够 节约 用 户 获 取信 息 的 
时 间 , 从 而 极 大 地 减轻 用 户 的 认 知 负担 .起 到 减 压 阀 的 作用 。 网 络 信 息 过 滤 对 个 性 化 信息 服 
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务 起 到 了 巨大 的 推动 作用 。 在 个 性 化 信息 服务 中 ,最 重要 的 是 收集 和 分 析 用 户 的 信息 需求 。 
由 于 信息 过 滤 的 反馈 机 制 具 有 自我 学 习 和 自我 适应 的 能 力 , 可 以 动态 地 了 解 用 户 兴趣 的 变 
化 ,因此 可 以 越 来 越 明确 、 具 体 地 掌握 用 户 的 信息 需求 ,从 而 为 用 户 提供 更 有 针对 性 的 信息 。 
在 协作 过 滤 系 统 中 ,还 可 以 根据 用 户 之 间 的 相似 性 来 推荐 信息 ,从 而 有 可 能 为 用 户 提供 新 的 
感 兴趣 的 信息 ,拓宽 用 户 的 视野 。 通 过 网 络 信息 过 滤 , 可 以 减少 不 必要 的 信息 传递 ,节约 宝 
贵 的 信道 资源 。 

3. 维护 我 国信 息 安全 的 迫切 需要 

网 络 为 信息 的 传递 带 来 了 极 大 的 方便 ,也 为 机 密 信息 的 流出 和 对 我 国政 治 、 经 济 、 文 化 
等 有 害 信息 的 流入 带 来 了 便利 。 发 达 国 家 通过 网 络 进行 政治 渗透 和 价值 观 、 生 活 方式 的 推 
销 , 一 些 不 法 分 子 利用 计算 机 网 络 复制 .传播 一 些 色情 的 、 种 族 主 义 的 .暴力 的 封建 迷信 或 有 
明显 意识 形态 倾向 的 信息 。 我 国 80% 的 网 民 在 35 岁 以 下 ,80% 的 网 民 具 有 大 专 以 上 文化 
学 历 ,而 这 两 个 80% 正 是 我 们 国家 建设 发 展 的 主力 军 。 所 以 ,中 国 的 信息 安全 问题 已 迫 在 
眉 睫 ,必须 引起 高 度 警惕 和 重视 ,而 信息 过 滤 是 行 之 有 效 的 防范 手段 。 目 前 主要 通过 过 滤 软 
件 及 分 级 制度 对 来 往 信 息 尤 其 是 越境 数据 流 进行 过 滤 ,将 不 宜 出 口 的 保密 或 宝贵 信息 资源 
留 在 国内 ,将 不 符合 国情 或 有 害 信息 挡 在 网 络 之 外 ,其 中 用 得 较 多 的 为 Internet 接收 控制 软 
件 和 因特网 内 容 选 择 平 台 (Platform for the Internet Content Selection ,PICS) 。 

随 着 网 络 不 良 信息 的 泛滥 ,信息 过 滤 作 为 解决 不 良 信息 问题 的 技术 手段 ,更 是 受到 社会 
各 方面 的 广泛 关注 。 过 滤 网 络 不 良 信息 是 信息 过 滤 最 重要 的 应 用 之 一 。 通 过 分 级 类 目 、 关 
键 词 .规则 等 描述 用 户 的 信息 需求 ,以 分 级 `URL 地 址 列表 、 自 动 文本 分 析 等 方法 来 过 滤 不 
良 信息 ,同时 运用 一 些 人 工 干 预 的 方法 提高 信息 过 滤 的 效率 ,在 保护 网 络 用 户 尤 其 是 未 成 年 
用 户 免 受 不 良 信 息 侵扰 方面 发 挥 了 很 好 的 作用 。 

4. 信息 中 介 ( 信 息 服 务 供应 商 ) 开 展 网 络 增值 服务 的 手段 

信息 中 介 行 业 的 发 展 要 经 过 建立 最 初 的 客户 资料 库 、 建 立 标准 丰富 档案 内 容 和 利用 客 
户 档案 获取 价值 3 个 阶段 。 其 中 第 1 阶段 和 第 3 阶段 的 主要 服务 重点 都 涉及 信息 过 滤 服 
务 。 过 滤 服 务 过 滤 掉 客户 不 想 要 的 推销 信息 ,信息 中 介 将 建立 一 个 过 滤器 以 检查 流入 的 带 
有 商业 性 的 电子 邮件 ,然后 自动 剿 除 与 客户 的 需要 和 偏好 不 相符 的 不 受 欢迎 的 信息 。 客 户 
可 提前 指定 他 们 想 经 过 过 滤 服 务 得 到 的 信息 或 经 过 过 滤 服 务 排除 出 去 的 任何 种 类 的 经 销 商 
或 产品 。 对 于 不 受 欢 迎 的 垃圾 信息 ,信息 中 介 将 会 在 客户 得 到 之 前 把 它们 过 滤 掉 。 

利用 网 络 信息 过 滤 , 可 以 对 网 络 信息 的 流量 、 流 向 和 流速 进行 合理 的 配置 ,使 网 络 更 加 
顺畅 。 而 对 于 用 户 来 说 ,信息 过 滤 由 于 剔除 了 大 量 不 相关 信息 的 流入 ,可 以 避免 赛车 现象 。 
在 网 络 环境 下 ,尽量 减少 无 效 数据 的 传输 对 于 节省 网 络 资源 、 提 高 网 络 传输 效率 具有 十 分 重 
要 的 意义 。 通 过 信息 过 滤 ,可 减少 不 必要 的 信息 传输 ,节省 费用 ,提高 经 济 效益 。 








4.2 网 络 信 息 内 容 过 滤 技 术 的 分 类 


面 对 纷繁 的 过 滤 系 统 , 按 照 单一 的 标准 是 无 法 准确 区 分 的 ,下 面 按照 如 下 3 个 标准 对 网 
络 信息 内 容 过 滤 技 术 进 行 分 类 。 
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4.2.1 根据 过 滤 方 法 分 类 


1. 基于 内 容 的 过 滤 

基于 内 容 的 过 滤 (Content Based Filtering) 又 叫 认 知 过 滤 ,是 利用 用 户 需求 模板 与 信息 
的 相似 程度 进行 的 过 滤 ,能 够 为 用 户 提供 其 感 兴趣 的 相似 的 信息 ,但 不 能 为 用 户 发 现 新 的 感 
兴趣 的 信息 。 在 反馈 机 制 的 作用 下 ,用户 的 信息 需求 处 于 循序 渐进 的 变化 过 程 中 。 基 于 内 
容 的 过 滤 首 先 要 将 信息 的 内 容 和 潜在 用 户 的 信息 需求 特征 化 ,然后 再 使 用 这 些 表 述 , 职 能 化 
地 将 用 户 需 求 同 信 息 相 匹配 ,按照 相关 度 排序 把 与 用 户 信息 需求 相 匹配 的 信息 推荐 给 用 户 ， 
其 关键 技术 是 相似 性 计算 。 优 点 是 简单 有效 ; 缺点 是 难以 区 分 资源 内 容 的 品质 和 风格 ,而 
且 不 能 为 用 户 发 现 新 的 感 兴趣 的 资源 ,只 能 发 现 和 用 户 已 有 兴趣 相似 的 资源 。 

2. 协作 过 滤 

协作 过 滤 (Collaborative Filtering) 又 叫 社会 过 滤 , 是 利用 用 户 需 求 之 间 的 相似 性 或 用 
户 对 信息 的 评价 进行 的 过 滤 。 对 于 价值 观念 .思想 观点 .知识 水 平 或 需求 偏好 相同 或 相似 的 
用 户 , 他 们 的 信息 需求 往往 也 具有 相似 性 。 基 于 这 一 思路 ,通过 比较 用 户 需求 模板 的 相似 程 
度 或 者 根据 用 户 对 信息 的 评价 而 进行 的 过 滤 , 既 可 以 为 用 户 提供 正 感 兴趣 的 信息 ,又 可 以 提 
供 新 的 感 兴趣 的 信息 。 在 这 种 系统 中 ,用 户 的 信息 需求 有 可 能 呈现 跃进 式 的 变化 。 

协作 过 滤 支 持 社 会 上 个 人 间 和 组 织 间 的 相互 关系 ,并 将 人 们 之 间 的 推荐 过 程 自动 化 。 
一 个 数据 条 款 被 推荐 给 用 户 ,是 基于 他 同 其 他 有 相似 兴趣 用 户 的 需求 相关 。 协 作 过 滤 推 荐 
的 核心 思想 是 用 户 会 倾向 于 利用 具有 相似 意向 的 用 户 群 的 产品 ,因此 , 它 在 预测 某 个 用 户 的 
利用 倾向 时 是 根据 一 个 用 户 群 的 情况 而 决定 的 。 可 见 ,协作 过 滤 法 是 找 出 一 群 具有 共同 兴 
趣 的 使 用 者 形成 社 群 ,也 就 是 有 某 些 相似 特性 成 员 的 集合 ,通过 分 析 社 群 成 员 共 同 的 兴趣 与 
喜好 ,再 根据 这 些 共同 特性 推荐 相关 的 项 目 给 同一 社 群 中 有 需求 的 成 员 。 其 优点 是 对 推荐 
对 象 没有 特殊 要 求 ,能 处 理 非 结构 化 的 复杂 对 象 ,并 且 可 以 为 用 户 发 现 新 的 感 兴趣 的 资源 ， 
这 种 过 滤 类 型 对 那些 不 是 很 清楚 自己 的 信息 需求 或 者 表达 信息 需求 很 困难 的 用 户 来 说 非常 
重要 ; 缺点 是 存在 两 个 很 难 解决 的 问题 : 其 一 是 稀 玻 性 问题 , 即 在 系统 使 用 初期 ,由 于 系统 
资源 还 未 获得 足够 多 的 评价 ,系统 很 难 利用 这 些 评价 来 发 现 相 似 的 用 户 ; 其 二 是 可 扩展 , 即 
随 着 系统 用 户 和 信息 资源 的 逐渐 增长 ,其 可 行 性 将 会 降低 。 协 同 过 滤 方 法 只 考虑 了 用 户 评 
分 数据 ,忽略 了 项 目 和 用 户 本 身 的 诸多 特征 ,如 电影 的 导演 .演员 和 发 布 时 间 等 ,用 户 的 地 理 
位 置 .性 别 、 年 龄 等 ,如 何 充分 .合理 地 利用 这 些 特征 ,获得 更 好 的 推荐 效果 ,是 基于 内 容 推 荐 
策略 所 要 解决 的 主要 问题 。 

这 两 类 过 滤 方 法 侧重 不 同 , 各 有 优点 ,综合 使 用 这 两 类 技术 会 给 网 络 信息 内 容 过 滤 带 来 
更 好 的 效果 。 


4.2.2 根据 操作 的 主动 性 分 类 





1. 主动 过 滤 

主动 过 滤 (Active Filtering) 系 统 主动 为 网 络 用 户 寻找 他 们 需要 的 信息 。 这 类 系统 可 以 
在 一 个 较 大 范围 或 局 部 范围 内 帮助 用 户 收 集 同 用 户 兴趣 相关 的 信息 ,然后 主动 从 Web 上 为 
其 用 户 推 送 相关 的 信息 。 因 特 网 上 所 谓 的 “推送 技术 (Pushing Technology) "就 是 这 个 范畴 
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内 的 应 用 。 在 有 些 主动 信息 过 滤 系 统 中 ,预先 对 网 络 信息 进行 处 理 , 例 如 ,对 网 页 或 者 网 站 
预先 分 级 、 建 立 允 许 或 禁止 访问 的 地 址 列表 等 ,在 过 滤 时 可 以 根据 分 级 标记 或 地 址 列表 决定 
能 和 否 访问 。 这 类 系统 有 BackWeb。 

2. 被 动 过 滤 

被 动 过 滤 (Passive Filtering) 系 统 不 对 网 络 信息 进行 预 处 理 , 当 用 户 访问 时 才 对 地 址 、 
文本 或 图 像 等 信息 进行 分 析 , 以 决定 是 否 过 滤 及 如 何 过 滤 。 这 类 系统 是 针对 一 个 相对 固定 
的 信息 源 过滤 掉 其 中 用 户 不 感 兴趣 的 信息 。 例 如 信息 源 可 以 是 用 户 的 电子 邮件 、 某 些 固定 
看 的 新 闻 组 等 ,而 主动 型 系统 要 主动 地 在 可 能 的 范围 内 寻找 信息 源 。 这 类 系统 一 般 都 是 根 
据 用 户 兴趣 将 信息 源 中 新 到 的 信息 根据 相关 程度 按 从 大 到 小 的 顺序 排 给 用 户 ,或 根据 某 一 
门限 值 将 系统 认为 用 户 不 感 兴趣 的 信息 提前 过 滤 掉 。 这 类 系统 有 GHOSTS,CiteSeer。 


4.2.3 根据 过 滤 位 置 分 类 


1. 上 游 过 滤 

用 户 需 求 模板 存放 在 网 络 服务 器 端 或 者 代理 端 上 。 一 般 说 来 ,为 了 减 小 服务 器 端 和 客 
户 端的 负荷 ,过 滤 系 统 也 可 能 处 在 信息 提供 者 与 用 户 之 间 的 专门 的 中 间 服 务 器 上 ,这 种 情况 
也 叫 作 中 间 服 务 器 过 滤 。 中 间 服 务 器 如 同一 个 大 型 的 网 络 缓存 器 ,Internet 信息 内 容 只 有 
经 过 它 的 过 滤 才 能 进入 本 地 系统 或 局 域 网 ,而 本 地 信息 也 要 经 过 它 的 中 转 才能 传递 出 去 。 
服务 器 端 采用 隐 含 式 方法 获取 用 户 信息 需求 ,过 滤 系 统 通过 记录 用 户 的 行为 来 获得 用 户 的 
信息 需求 ,如 用 户 在 指定 页 面 的 停留 时 间 ,用户 访问 页 面 的 频率 .是否 选择 保存 数据 ,是否 打 
印 、 是 否 转 发 数据 等 对 信息 项 的 反应 都 能 作为 用 户 兴趣 的 标志 。 一 般 上 游 过 滤 的 优点 是 不 
仅 支 持 基 于 内 容 的 过 滤 , 也 支持 协作 过 滤 ; 缺点 是 模板 不 能 用 于 不 同 的 网 络 应 用 中 ,容易 受 
到 干扰 的 影响 ,所 以 这 种 方法 通常 用 作 下 游 过 滤 的 补充 。 

2. 下 游 过 滤 

用 户 需 求 模板 存放 在 客户 端 上 ,也 称 为 客户 端 过 滤 。 采 用 显 式 方法 获取 用 户 信息 需求 
的 过 滤 系 统 , 通 常 要 求 用 户 填 写 一 个 描述 他 们 兴趣 领域 需求 的 表 或 者 要 求 用 户 根据 提供 的 
特征 项 构造 自身 对 特定 领域 信息 需求 的 描述 模型 。 用 户 根据 自身 需要 设置 一 定 的 限定 条 
件 , 将 不 感 兴趣 的 信息 排除 在 外 。 优 点 是 模板 可 用 于 不 同 的 网 络 应 用 .缺点 是 只 能 实现 基于 
内 容 的 过 滤 。 系 统 要 求 用 户 提 供 自身 明确 的 信息 ,使 系统 能 够 把 用 户 与 用 户 原型 模型 相关 
联 。 所 谓 原型 模型 ,是 指 一 组 用 户 的 默认 信息 ,将 对 用 户 原 型 模型 上 的 隐 含 式 推测 与 用 户 提 
供 的 明确 知识 相 结 合 , 可 得 到 更 好 的 表示 用 户 信息 需求 的 用 户 模 板 。 


4.2.4 根据 过 滤 的 不 同 应 用 分 类 

网 络 信息 内 容 过 滤 技术 还 可 以 根据 过 滤 的 不 同 应 用 进行 分 类 ,具体 可 分 为 如 下 几 种 
类 型 。 

1. 专门 过 滤 软 件 

这 是 为 过 滤 网 络 信息 而 专门 开发 的 软件 ,一 般 要 加 载 到 网 络 应 用 程序 中 ,根据 预先 设 定 


的 过 滤 模 板 扫描 、 分 析 网 络 信息 并 阻挡 不 适宜 的 信息 。 专 门 过 滤 软 件 又 可 以 分 为 专用 过 滤 
软件 和 通用 过 滤 软 件 两 种 。 前 者 只 能 过 滤 某 种 网 络 协议 的 信息 ,如 网 页 过 滤 软 件 .邮件 过 滤 
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软件 .新 闻 组 过 滤 软 件 等 ; 或 者 只 能 在 某 种 网 络 应 用 中 起 作用 ,如 儿童 浏览 器 .儿童 搜索 引 
擎 .广告 过 滤 软 件 等 。 后 者 能 对 多 种 网 络 协议 或 应 用 起 作用 ,如 NetNanny 可 以 过 滤 网 页 、 
电子 邮件 、 网 络 聊 天 的 信息 , 除 此 之 外 Norton Internet Security 还 可 以 过 滤 ICQ FTP 和 新 
闻 组 的 信息 。 目 前 用 得 比较 多 的 是 通用 过 滤 软 件 。 

2. 网 络 应 用 程序 

有 些 网 络 应 用 程序 如 Web 浏览 器 、 搜 索引 擎 .电子 邮件 .新 闻 组 等 附 有 过 滤 功 能 ,可 以 
设置 过 滤 不 适宜 的 信息 。 如 IE 的 内 容 分 级 审查 功能 ,用 户 通 过 设置 黑 名 单 、 白 名 单 或 组 合 
使 用 各 种 支持 PICS 的 分 级 标记 进行 过 滤 , 具 有 过 滤 成 本 低 、 使 用 方便 的 特点 。 典 型 的 如 浏 
览 器 端 过 滤 ,这 种 过 滤 方 式 使 用 存储 一 些 已 知 的 散布 不 良 网 站 的 IP 地 址 .URL 地 址 的 数据 
库 , 在 浏览 器 进行 访问 时 ,将 访问 地 址 与 数据 库 中 的 IP 地址 、URL 地 址 等 信息 进行 匹配 ,如 
果 浏 览 器 需要 访问 的 地 址 在 数据 库 中 是 处 于 需要 限制 的 内 容 , 那 么 在 浏览 器 请 求 访问 的 时 
候 , 对 其 进行 限制 ,达到 过 滤 的 效果 。 过 滤 性 能 伴随 数据 库 中 的 IPP 地 址 `URL 地 址 数量 以 
及 准确 性 的 提升 而 提升 。 

3. 其 他 过 滤 工具 

其 他 过 滤 工 具 如 防火 墙 、 代 理 服 务 器 等 ,可 以 通过 对 源 地 址 .目标 地 址 或 端口 号 的 限制 ， 
防止 子 网 的 不 适宜 的 信息 流出 或 子 网 外 不 适宜 的 信息 流入 。 使 用 存储 一 些 已 知 的 散布 不 良 
网 站 的 IP 地 址 `URL 地 址 的 数据 库 进行 网 页 过 滤 是 一 种 比较 有 效 的 形式 。 在 已 知 不 良 内 
容 网 站 的 IP 地 址 或 URL 地 址 时 ,这 种 方式 是 非常 有 效 的 。 运 用 IP 地 址 或 URL 地 址 进行 
过 滤 有 路 由 器 端 过 滤 方 式 。 这 种 方式 将 过 滤 规 则 放置 在 路 由 器 端 ,在 路 由 器 “安全 设置 "的 
“IP 地 址 过 滤 ” 中 ,可 以 设置 IP 地 址 ,禁止 访问 的 端口 和 协议 等 。 使 用 路 由 器 端的 IP 地 址 
过 滤 , 反 应 速度 较 快 ,可 以 对 端口 .协议 等 进行 设置 ,可 限制 更 多 网 站 。 但 是 路 由 器 设置 较为 
复杂 ,地 址 等 一 般 不 全 面 ,不 能 普及 。 根 据 IP 地 址 `URL 地 址 进行 网 页 过 滤 是 一 种 非常 有 
效 的 手段 ,在 IP 库 与 URL 库 非 常 全 面 的 时 候 ,能 够 准确 地 识别 需要 过 滤 的 网 址 。 但 是 这 
种 方式 有 一 定 的 局 限 性 ,在 当今 网 站 层出不穷 的 情况 下 ,缺少 对 于 未 知 网 址 的 发 现 , 某 些 
不 法 分 子 经 常 修改 网 址 IP 及 端口 设置 ,使 用 多 级 代理 变换 网 址 形式 ,对 IP 过 滤 造 成 了 
影响 。 


4.3 网 络 信息 内 容 过 滤 的 一 般 流 程 


1. 网 络 信息 过 滤 的 一 般 流程 
为 便于 理解 ,首先 给 出 网 络 信息 过 滤 的 一 般 流程 ,如 图 4-2 所 示 。 
从 图 4-2 中 可 以 看 出 ,用 户 在 通过 网 络 进 行 工作 、 学 习 、 生 活 中 产生 了 大 量 信息 。 用 户 
的 信息 需求 必须 以 计算 机 能 够 识别 的 形式 揭示 出 来 ,这 就 是 用 户 需求 模板 (Profile, 也 叫 过 
滤 模 板 )。 对 于 用 户 需 求 模板 ,可 以 是 正 向 的 ,也 可 以 是 反 向 的 ,也 就 是 说 既 可 以 揭示 用 户 希 
望 得 到 的 信息 ,也 可 以 描述 用 户 希 望 剔 除 的 信息 。 在 系统 中 ,对 动态 的 网 络 信息 集 不 作 预 处 
理 , 只 是 当 信息 流 经 过 系统 时 才 运 用 一 定 的 算法 把 信息 揭示 出 来 。 匹 配 算法 和 用 户 需求 模 
板 的 描述 方法 、 信 息 的 揭示 方法 是 相互 联系 的 ,常用 的 匹配 模型 有 布尔 模型 ,向量 空 间 模 型 、 
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图 4-2 网 络 信息 过 滤 一 般 流 程 


概率 模型 . 聚 类 模型 .基于 知识 的 表示 模型 以 及 混合 模型 等 ,主要 任务 是 剔除 不 相关 的 信息 ， 
选取 相关 的 信息 并 按 相 关 性 的 大 小 提供 给 用 户 。 

为 了 提高 信息 过 滤 的 效率 ,系统 还 根据 用 户 对 过 滤 结 果 的 反应 ( 即 通过 反馈 机 制作 用 于 
用 户 和 用 户 需求 模板 ) 使 用 户 逐 渐 清 晰 自己 的 信息 需求 ,使 得 用 户 对 需求 模板 的 描述 也 会 越 
来 越 明 确 . 具 体 。 在 整个 系统 中 ,用 户 需 求 模板 的 生成 .信息 的 揭示 匹配 算法 和 反馈 机 人 制 是 
最 为 关键 的 部 分 。 在 现 有 技术 条 件 下 ,全 自动 的 信息 过 滤 系统 还 处 于 试验 阶段 ,为 了 提高 实 
用 性 ,往往 会 在 这 些 关 键 部 分 进行 必要 的 人 工 干预 ,如 对 动态 的 信息 流 先 作 预 处 理 . 人 工 修 
改 用 户 需求 模板 等 。 

反馈 模块 主要 用 于 处 理 用 户 的 反馈 信息 并 依据 反馈 信息 进一步 精 化 用 户 模型 ,保存 以 
便 下 一 次 用 户 注册 登录 时 直接 读 取 到 精 化 后 的 模型 。 用 户 对 返回 的 文档 集 进行 评估 ,由 系 
统 根据 这 些 反 馈 信息 进一步 修改 用 户 兴趣 文件 ,以 利于 下 一 次 的 过 滤 。 匹 配 算法 和 用 户 需 
求 模 板 描述 方法 、 信 息 的 揭示 方法 是 相互 关联 的 ,常见 的 匹配 算法 有 布尔 模型 向量 空间 模 
型 、 概 率 模型 . 聚 类 模型 等 ,主要 任务 是 过 滤 不 相关 的 信息 ,选取 相关 的 信息 并 按 相关 性 的 大 
小 提供 给 用 户 。 在 整个 模型 中 ,用 户 需求 模板 的 生成 、 信 息 揭 示 、 匹 配 算法 和 反馈 机 制 是 最 
为 关键 的 部 分 。 为 了 提高 实用 性 ,往往 会 在 这 些 关键 部 分 进行 必要 的 人 工 干 预 ,如 对 动态 的 
信息 流 作 预 处 理 ` 人 工 修改 用 户 需求 模板 等 。 

2. 网 络 文本 信息 过 滤 模 型 

参考 图 4-2 的 网 络 信息 过 滤 的 一 般 模型 ,可 以 创建 一 个 基于 Web 的 文本 信息 过 滤 模 
型 ,如 图 4-3 所 示 。 

从 图 4-3 来 看 ,文本 信息 过 滤 模 型 中 主要 包含 文本 表示 模块 ,文本 过 滤 匹 配 模块 ,用户 
(兴趣 ) 模 板 生 成 模块 .反馈 模块 等 。 其 中 ,文本 表示 模块 主要 针对 采集 到 的 信息 提取 其 中 的 
特征 信息 ,按照 一 定 的 格式 来 描述 ,然后 作为 输入 信息 传递 给 过 滤 匹 配 模 块 ; 用 户 模板 生成 
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4-3 网 络 文本 信息 过 滤 模 型 


模块 是 依据 用 户 对 信息 的 需求 和 喜好 来 生成 , 它 根据 用 户 提供 的 学 习 样 本 或 主动 跟踪 用 户 
的 查询 行为 建立 用 户 兴 趣 的 初始 模板 ,再 根据 用 户 反馈 模块 不 断 更 新 用 户 模板 ; 文本 过 滤 
匹配 模块 就 是 将 用 户 兴趣 模板 与 信息 表示 模块 中 的 信息 分 析 表 示 的 结果 按照 一 定 的 算法 进 
行 匹配 ,并 按照 匹配 算法 决定 将 要 传递 给 用 户 的 相关 信息 项 ; 用 户 得 到 文本 过 滤 的 结果 后 ， 
对 其 进行 评价 并 反馈 给 用 户 模块 ,用 户 模块 通过 不 断 跟踪 学 习 用 户 兴趣 的 变化 及 用 户 反 馈 
来 调整 甚至 更 改 用 户 需求 表达 ,以 达到 不 断 实现 正确 过 滤 无 用 信息 的 目的 。 以 下 简要 介绍 
模型 中 各 部 分 的 主要 技术 。 

(1) 文本 表示 。 包 括 将 Web 中 的 有 效 文本 信息 内 容 提取 出 来 ,对 于 中 文 文本 过 滤 来 
说 ,涉及 中 文 的 分 词 停 用 词 处 理 、 语 法 语义 分 析 等 过 程 。 常 用 的 方法 是 建立 文本 的 布尔 模 
型 .向 量 空间 模型 和 概率 模型 等 。 

(2) 用 户 模 板 的 建立 。 用 户 模板 空间 常 按照 倒 排 索引 的 方式 存储 用 户 信息 ,建立 用 户 
模板 的 方式 有 建立 关键 字 表 和 示例 文本 ,而 常用 的 技术 有 建立 向 量 空间 模型 、 预 定义 关键 
字 、 层 次 概念 集 和 分 类 目录 等 。 

(3) 用 户 模板 与 文本 的 匹配 。 最 常用 的 方法 有 布尔 模型 .向 量 空间 模型 和 概率 模型 。 

(4) 用 户 反馈 。 用 户 反馈 分 为 确定 性 反馈 和 隐 含 性 反馈 。 确 定性 反馈 指 的 是 二 元 (是 
或 否 ) 反 馈 , 另 外 还 有 分 级 打分 的 方法 。 利 用 这 些 反馈 信息 ,应 用 机 器 学 习 方 法 ,完善 用 户 
模板 。 

综合 以 上 介绍 分 析 , 可 以 将 网 络 文本 信息 内 容 过 滤 的 工作 概括 为 两 个 方面 : 一 是 建立 
用 户 需求 模型 , 即 用 户 模板 ,用 于 描述 用 户 对 于 信息 的 具体 需求 。 建 立 用 户 需求 模型 的 主要 
依据 是 用 户 提交 的 关键 词 .主题 词 或 示例 文本 ; 二 是 匹配 技术 , 即 用 户 模板 与 文本 的 匹配 技 
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术 。 简 单 地 讲 ,文本 过 滤 模 型 就 是 根据 用 户 的 查询 历史 创建 用 户 需求 模型 ,将 信息 源 中 的 文 
本 有 效 表示 出 来 .然后 根据 一 定 的 匹配 规则 ,将 文本 信息 源 中 可 以 满足 用 户 需求 的 信息 返回 
给 用 户 , 并 根据 一 定 的 反馈 机 制 ,不 断 地 调整 改进 用 户 需求 模型 ,以 期 获得 更 好 的 过 滤 结 果 。 
从 技术 角度 来 看 ,文本 信息 过 滤 的 关键 技术 是 获得 用 户 信 息 需 求 ( 用 户 模 板 的 建立 ) 和 解决 
信息 过 滤 算 法 , 即 信息 过 滤 技 术 的 研究 应 当 集 中 在 解决 用 户 模板 的 表示 及 根据 模板 对 文本 
流 进行 评价 (Ranking) 的 方法 上 。 为 提高 信息 过 滤 系 统 的 性 能 ,应 加 强 对 过 滤 匹 配 算法 和 
用 户 模型 的 研究 与 实践 。 

3. 实例 分 析 

本 小 节 将 以 Websense 为 例 , 介 绍 网 络 信息 内 容 过 滤 的 实际 应 用 。Websense 是 全 球 知 
名 的 过 滤 软 件 开发 商 。 有 18 000 多 家 公司 学校、 图 书馆 和 政府 部 门 在 使 用 Websense 公司 
的 过 滤 软 件 ,截至 本 书 出 版 前 其 最 新 版 本 是 定位 于 “企业 员工 网 络 管理 方案 "的 Websense 
Enterprise v4. 4. 1MS Proxy Server, 主 要 用 于 企业 网 络 管理 ,防止 员工 滥用 网 络 , 经 过 调整 
后 也 可 用 于 网 吧 、 图 书馆 等 部 门 。 软 件 由 主 数据 库 、Enterprise 应 用 程序 、 报 表 及 三 台 用 户 
机 组 成 ,如 图 4-4 所 示 。 

用 户 机 











代理 服务 器 
Internet 


本 
| wi 
eg Ga 


图 4-4 Websense Enterprise 过 滤 系 统 示意 图 


1) Websense 主 数据 库 

Websense 主 数据 库存 储 了 400 多 万 个 网 站 、10 亿 个 网 页 。 这些 网 页 涉及 英 、 法 、 德 、 
日 西 等 44 种 语言 ,根据 不 同 的 内 容 归 入 Websense 分 级 体系 的 31 个 一 级 类 目 和 50 多 个 子 
类 目 中 ,号 称 是 世界 上 最 大 最 精确 的 采用 自动 和 人 工分 级 相 结合 的 分 级 网 址 数据 库 。 主 数 
据 库 安装 在 用 户 的 代理 服务 器 上 ,与 Enterprise 应 用 程序 结合 才能 过 滤 网 络 信息 。 为 了 建 
立 和 维护 这 个 庞大 的 数据 库 , Websense 公司 有 专门 的 工具 收集 网 页 。 网 页 收集 回来 后 利用 
自动 分 类 器 进行 分 级 。 对 于 分 类 器 无 法 确定 的 类 目 再 由 人 工分 级 。 分 级 的 结果 保存 在 
Websense 的 分 级 数据 库 中 。 用 户 代理 服务 器 上 的 Enterprise 应 用 程序 每 天 都 会 自动 从 分 
级 数据 库 中 下 载 最 新 的 内 容 , 更 新 主 数据 库 的 记录 。 由 于 网 络 信息 处 于 动态 变化 过 程 中 ,为 
了 保证 网 页 分 级 的 有 效 性 ,Websense 有 专门 的 工具 定期 回访 网 页 ,对 内 容 有 变化 的 网 页 进 
行 重新 分 级 。 





斌 
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2) Websense Enterprise 应 用 程序 

Enterprise 应 用 程序 是 Websense 过 滤 软 件 直接 与 用 户 交互 的 部 分 ,也 是 整个 系统 的 核 
心 组 成 部 分 。 它 可 以 与 防火 墙 、 代 理 服 务 器 整合 ,在 Windows NT/2000、Sun Solaris、Linux 
系统 中 运行 。 它 能 够 根据 用 户 定 制 的 过 滤 模 板 调 用 主 数据 库 的 数据 过 滤 不 适宜 的 信息 ,并 
将 处 理 的 结果 传递 给 报表 程序 。 由 于 Websense 分 级 体系 的 类 目 众 多 而 且 周 详 , 除 了 不 良 
信息 的 类 目 外 ,还 有 许多 类 目 是 从 防止 员工 滥用 网 络 的 角度 而 设立 的 ,管理 人 员 可 以 根据 不 
同 的 用 户 、 组 、 部 门 、 工 作 站 、IP 地 址 或 网 络 设 置 不 同 的 过 滤 模 板 , 而 且 还 可 以 为 每 一 类 目 分 
别 设置 以 下 内 容 。 

(1) 时 基 限 额 。 利 用 时 基 限 额 ,允许 用 户 在 适当 的 时 间 内 访问 与 工作 无 关 的 类 目 。 例 
如 ,每 天 允许 访问 银行 及 购物 站 点 的 时 间 不 超过 20min。 

(2) 继续 ,延迟 。 用 户 可 以 选择 “继续 ”浏览 不 允许 的 类 目 ,或 者 选择 “延迟 ”至 在 工作 时 
间 外 浏览 。 

(3) 设 定时 段 。 按 类 目 设置 过 滤 的 时 段 。 例 如 ,每 天 的 工作 时 间 内 禁止 访问 购物 网 站 ， 
而 其 他 时 间 则 可 以 访问 。Websense Enterprise 应 用 程序 可 以 通过 白 名 单 限制 用 户 访问 的 
范围 ,采用 关键 词 列表 阻挡 不 适当 的 内 容 , 根 据 主 文件 名 或 扩展 名 进行 过 滤 ,还 支持 对 网 络 
聊天 的 限制 。 


4.4 网 络 信息 内 容 过 滤 模 型 


从 前 面 章节 中 可 以 看 出 内 容 过 滤 模 型 是 网 络 信息 内 容 过 滤 系 统 中 的 核心 模块 。 在 实际 
应 用 中 ,常用 的 过 滤 模 型 一 般 包括 布尔 模型 向量 空间 模型 和 神经 网 络 模型 。 根 据 过 滤 系 统 
的 应 用 对 象 不 同 ,其 过 滤 效 率 也 不 同 。 下 面 将 对 这 些 模 型 进行 简要 介绍 。 


4.4.1 布尔 模型 


布尔 模型 是 基于 特征 项 的 严格 匹配 模型 。 首 先 建立 一 个 二 值 变量 的 集合 ,这 些 变量 对 
应 着 信息 源 的 特征 项 。 如 果 在 信息 源 中 出 现 相应 的 特征 项 , 则 特征 变量 取 True, 否则 特征 
变量 取 False。 查 询 是 由 特征 项 和 逻辑 运算 符 AND,OR 和 NOT 组 成 的 布尔 表达 式 。 信 息 
源 与 查询 的 匹配 规则 遵循 布尔 运算 的 法 则 。 根 据 匹配 规则 将 信息 源 分 为 两 类 , 相关 类 和 不 
相关 类 。 由 于 匹配 结果 的 二 值 性 ,所 以 无 法 对 结果 集 进 行 相关 性 排序 。 

布尔 模型 实现 简单 ,检索 速度 快 ,易于 理解 ,在 许多 商用 的 过 滤 系 统 中 得 到 了 应 用 。 但 
是 这 种 传统 的 布尔 过 滤 技 术 也 存在 一 些 不 足 之 处 。 

(1) 原始 信息 表示 不 精确 。 布 尔 模型 仅仅 以 特征 项 在 原始 信息 中 出 现 与 否 的 布尔 特性 
来 表示 原始 信息 ,忽略 了 不 同 特征 项 对 信息 内 容 贡献 的 重要 程度 ,容易 造成 结果 的 宛 余 。 

(2) 基于 布尔 运算 法 则 的 匹配 规则 过 于 严格 ,容易 造成 漏 检 。 严 格 上 且 缺 乏 灵活 性 的 布 
尔 过 滤 规 则 往往 会 导致 仅仅 因为 一 个 条 件 未 满足 的 文档 被 漏 检 。 

(3) 布尔 模型 匹配 结果 的 二 值 性 导致 系统 无 法 按 结果 信息 的 相关 性 大 小 为 用 户 提供 





信息 


所 、 


为 了 克服 传统 布尔 模型 的 缺陷 ,人 们 对 其 进行 了 改造 ,引入 权重 来 表示 特征 项 对 文档 的 


78 网 络 信息 内 容 安 全 





贡献 程度 ,形成 了 所 谓 的 加 权 布 尔 模型 , 即 拓展 的 布尔 模型 (Extended Boolean Model) 。 
4.4.2 向 量 空间 模型 


向 量 空间 模型 已 被 人 们 普遍 认为 是 一 种 非常 有 效 的 检索 模型 。 它 具有 自然 语言 界面 ， 
易于 使 用 。 同 样 ,向 量 空 间 模 型 也 可 以 应 用 到 信息 过 滤 系 统 中 来 。 在 以 向 量 空间 模型 构造 
的 信息 过 滤 系 统 中 ,用 户 模 板 和 原始 信息 均 被 表示 成 维 欧 氏 空间 中 的 向 量 ,用 它们 之 间 的 
夹 角 余弦 作为 相似 性 的 度量 。 运 用 向 量 空间 模型 构造 信息 过 滤 系 统 主要 包括 4 个 方面 的 
工作 。 

(1) 给 出 原始 信息 的 向 量 表示 。 

(2) 给 出 用 户 模板 的 向 量 表示 。 

(3) 计算 原始 信息 和 用 户 模板 之 间 的 相似 度 。 二 者 的 相似 度 通常 用 原始 信息 向 量 和 用 
户 模 板 向 量 之 间 夹 角 的 余弦 值 来 衡量 。 

(4) 将 与 用 户 模 板 之 间 相 似 度 大 于 给 定 阔 值 的 原始 信息 提供 给 用 户 ,并 获得 用 户 的 
反馈 。 

向 量 空间 模型 的 优点 在 于 将 原始 信息 和 用 户 模板 简化 为 项 及 项 权重 集合 的 向 量 表示 ， 
从 而 把 过 滤 操作 变 成 向 量 空间 上 的 向 量 运算 ,通过 定量 的 分 析 , 完 成 原始 信息 和 用 户 模板 的 
匹配 。 

向 量 空间 模型 的 缺点 在 于 存在 信息 在 向 量 表示 时 的 项 与 项 之 间 线 性 无 关 的 假设 ,在 自 
然 语言 中 , 词 或 短语 之 间 存在 十 分 密切 的 联系 , 即 存在 “和 斜 交 "现象 ,很 难 满足 假定 条 件 , 这 对 
计算 结果 的 可 靠 性 造成 一 定 的 影响 。 此 外 ,将 复杂 的 语义 关系 归结 为 简单 的 向 量 结构 ,丢失 
了 许多 有 价值 的 线索 。 因 此 ,有 许多 改进 的 技术 ,以 获取 深层 潜藏 的 语义 结构 。 如 潜在 语义 
索引 方法 就 是 对 向 量 空间 模型 的 一 种 有 效 改进 。 


4.4.3 神经 网 络 模型 


神经 网 络 模 型 (Neural Network Model) 模 拟人 脑 对 信息 的 处 理 方式 ,用 该 模型 过 滤 信 上 
息 的 基本 思想 是 在 其 内 部 存储 可 行 模式 的 整个 集合 ,这 些 模式 可 被 外 部 暗示 唤起 ,即使 “外 
部 ”提供 的 资料 不 足 , 也 可 以 在 其 内 部 进行 构造 。 当 给 系统 输入 一 个 文本 的 特征 向 量 时 ,可 
通过 神经 网 络 存 储 的 内 部 信息 对 此 文本 进行 主题 判断 , 即 神经 网 络 的 输入 为 文本 的 特征 向 
量 , 输 出 为 用 户 给 出 的 评价 值 。 经 过 训练 的 网 络 模 型 通过 将 不 同文 本 的 特征 向 量 映射 为 大 
小 不 等 的 评价 来 实现 主题 区 分 的 目的 。 


4.5 网络 信息 内 容 过 滤 的 主要 方法 


分 类 是 一 个 有 指导 的 学 习 过 程 ,也 是 网 络 信息 内 容 过 滤 中 的 一 个 重要 技术 方法 。 其 特 
点 是 根据 已 经 掌握 的 每 类 若干 样本 (训练 数据 ) 的 数据 信息 ,总 结 出 分 类 的 规律 ,建立 判别 公 
式 和 判别 规则 。 然 后 , 当 遇 到 待 分 类 的 新 样本 点 (测试 数据 ) 时 ,只 需 根 据 总 结 出 的 判别 公式 
和 判别 规则 ,就 能 确定 该 样本 所 属 的 类 别 。 

实际 上 ,基于 内 容 的 文本 过 滤 在 不 考虑 学 习 和 自 适 应 能 力 时 是 一 个 分 类 过 程 ,如 TREC 
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中 的 Batch( 自 动 过 滤 ,结果 不 排序 ) 和 Routing( 自 动 过 滤 ,结果 排序 ) 过 滤 任 务 。 其 中 ,过 滤 
的 主题 (用 户 需求 ) 相 当 于 分 类 的 类 别 , 过 滤 的 检 出 准则 相当 于 分 类 的 判别 规则 ,而 判断 某 文 
档 跟 哪些 主题 相关 的 过 程 等 价 于 判别 文档 所 属 的 类 别 的 过 程 。 对 于 自 适 应 过 滤 任 务 
(Adaptive Filtering) ,其 基本 框架 仍然 是 一 个 类 似 文 本 分 类 的 判别 过 程 。 所 不 同 的 主要 有 
两 点 : 一 是 训练 样本 很 少 ,几乎 没有 训练 过 程 ; 二 是 在 过 滤 过 程 中 需要 根据 用 户 的 反馈 进 
行 自 适应 的 学 习 , 不 断 自我 调整 以 实现 边 学 习 边 提高 的 目的 。 后 者 是 自 适应 过 滤 研 究 的 重 
点 ,但 是 ,作为 核心 的 过 滤 算 法 仍然 是 一 个 分 类 算法 。 

过 滤 算 法 的 选择 是 影响 文本 过 滤 效 果 好 坏 的 重要 因素 。 分 类 技术 涉及 很 多 领域 ,包括 
统计 分 析 模式 识别 人 工 智能 、 神 经 网 络 等 。 由 于 过 滤 与 分 类 、 检 索 技 术 的 共通 性 ,上 述 领 
域 的 研究 成 果 同 样 可 以 应 用 到 网 络 信息 内 容 过 滤 中 来 。 这 些 方法 大 致 可 以 分 为 统计 方法 和 
逻辑 方法 。 

4.5.1 统计 方法 


统计 判别 方法 是 统计 分 析 领 域 的 过 滤 和 分 类 算法 的 总 称 , 在 网 络 信息 内 容 过 滤 的 实际 
应 用 中 ,常用 的 方法 主要 有 向 量 中 心 法 .相关 反馈 法 (Rocchio 法 )、K 近邻 (K-Nearest 
Neighbor，KNN) 法 、. 贝 叶 斯 法 .朴素 贝 叶 斯 CNaive Bayes) 法 和 贝 叶 斯 网 络 (Bayes Nets 
Work) 、 多 元 回归 模型 (Multivariate Regression Models) 支持 向 量 机 (Support Vector 
Machines) 以 及 概率 模型 (Probability Model) 等。 

1. 向 量 中 心 法 

向 量 中 心 法 是 建立 在 向 量 空间 模型 基础 上 的 。 该 方法 通过 计算 新 到 来 的 文档 与 表示 过 
滤 主 题 的 用 户 兴 趣 ( 向 量 中 心 ) 之 间 的 夹 角 余 弦 值 : 





sim 一 〈(Di,D:) 一 cosb 全 (4-1) 





或 者 向 量 内 积 


sim(Di1,D2) = Dw * wa (4-2) 


kl 


来 判断 文档 是 否 跟 该 主题 相关 。 由 于 这 种 方法 简单 而 实用 ,因而 在 信息 过 滤 、 信 息 检索 、 文 
本 分 类 等 多 个 领域 得 到 了 广泛 应 用 。 

2. 相关 反馈 法 

Rocchio 法 是 一 个 在 信息 检索 中 广泛 应 用 于 文本 处 理 与 过 滤 等 业务 中 的 算法 , 它 是 一 
种 基于 相关 反馈 (Relevance Feedback) 的 、 建 立 在 向 量 空间 模型 上 的 方法 。 它 用 TFIDF 方 
法 来 描述 文本 ,其 中 TF(w;,d) 是 词 rw 在 文本 4d 中 出 现 的 频率 ,DF(w;) 是 出 现 rw; 的 文本 
数 。 该 方法 中 可 以 选择 不 同 的 词 加 权 方 法 、 文 本 长 度 归 一 化 方法 和 相似 度 测量 方法 以 取得 
不 同 的 效果 。 | 


二 1 d 
Ci (4-3) 
ea i Ps | a 
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其 中 C; 是 主题 的 用 户 兴 趣 ,a/8 反映 正 反 训练 样本 对 G， 的 影响 。 避 是 文本 向 量 , | 有 | 是 该 
向 量 的 欧 氏 距离 ,D 是 文本 总 数 。 


若 以 余弦 计算 相似 度 , 则 判别 文本 豆 是 否 跟 主题 C; 相关 的 公式 为 


Himwr(d)= arg max cos(C;,d) 


CG .4 
IC lall 


Sa 


一 we = 
| (CO) ad®)? 
3 了 


式 中 ,n 为 每 个 文档 的 特征 项 ( 词 ) 的 个 数 。 式 (4-4) 中 忽略 了 4d 的 长 度 , 因 为 它 不 影响 
argmax 的 结果 。Rocchio 法 实现 起 来 较为 容易 ,但 是 它 需 要 事先 知道 若干 正 负 样本 ,受训 
练 集合 的 影响 较 大 ,有 时 会 导致 性 能 下 降 。 

3. K 近邻 法 

K 近邻 法 的 原理 也 很 简单 。 给 出 未 知 相 关 主 题 的 文本 ,计算 它 与 训练 集中 每 个 文本 的 
距离 , 找 出 最 近 的 篇 训练 文档 ,然后 根据 这 篇 文档 的 特性 来 判断 未 知 文本 相关 的 主题 。 
可 以 选择 出 现在 这 个 邻居 中 相关 的 文本 与 未 知 文本 的 相似 度 , 值 最 大 的 主题 就 被 判定 为 
未 知 文本 相关 的 主题 ,这 就 是 最 近邻 法 。 最 近邻 法 不 是 仅仅 比较 与 各 主题 类 均值 的 距离 ,而 
是 计算 和 所 有 样本 点 之 间 的 距离 ,只 要 有 距离 最 近 者 就 归 入 所 属 主 题 类 。 为 了 克服 最 近邻 
法 错 判 率 较 高 的 缺陷 ,K 近邻 法 不 是 仅 选取 一 个 最 近邻 进行 判断 ,而 是 选取 个 近邻 ,然后 
检查 它们 相关 的 主题 , 归 入 比重 最 大 的 那个 主题 类 。 

4. 贝 叶 斯 法 

(1) 朴素 贝 叶 斯 法 。 朴 素 贝 叶 斯 算法 在 机 器 学 习 中 有 着 广泛 的 应 用 。 其 基本 的 思想 是 
在 贝 叶 斯 概率 公式 的 基础 上 ,根据 主题 相关 性 已 知 的 训练 语 料 提供 的 信息 进行 参数 估计 , 训 
练 出 过 滤器 。 进 行 过 滤 时 ,分 别 计算 新 到 文本 跟 各 个 主题 相关 的 条 件 概 率 , 认 为 文本 跟 条 件 
概率 最 大 的 主题 类 相关 。 其 计算 公式 如 下 : 
PCC | 由 Pd | C;:0,) 

Pd | 0 

式 (4-5) 中 ,等 式 右 边 的 概率 均 可 根据 训练 语 料 运 用 参数 估计 的 方法 求 得 。 朴 素 贝 叶 斯 法 是 
在 假设 各 特征 项 之 间 相 互 独立 的 基本 前 提 下 得 到 的 。 这 种 假设 使 得 贝 叶 斯 算法 易于 实现 。 
尽管 这 个 假设 与 实际 情况 不 相符 ,但 实际 应 用 证 明 ,这 种 方法 应 用 于 信息 过 滤 中 是 比较 有 
效 的 。 

(2) 贝 叶 斯 网 络 。Heckerman 和 Sahami 分 别提 出 了 对 贝 叶 斯 网 络 的 改进 方法 。 贝 叶 
斯 网 络 的 基本 思想 是 取消 纯粹 贝 叶 斯 方法 中 关于 各 特征 之 间 相 互 独立 的 假设 ,而 允许 它们 
具有 一 定 的 相关 性 。K- 相 关 贝 叶 斯 网 络 是 指 允 许 每 个 特征 有 至 多 k 个 父 节点 矿 , 即 至 多 有 
& 个 与 之 相关 的 特征 项 的 贝 叶 斯 网 络 。 朴 素 贝 叶 斯 则 是 贝 叶 斯 网 络 的 一 个 特例 ,也 被 称 为 
0- 相 关 贝 叶 斯 网 络 。 








argmax 


(4-4) 











P(C; | d:0) (4-5) 
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5. 多 元 回归 模型 
多 元 回归 模型 运用 了 线性 最 小 平方 匹配 (Linear Least Square Fit) 的 算法 。 通 过 求解 
输入 -输出 矩阵 的 线性 最 小 平方 匹配 问题 ,得 到 一 个 回归 系数 矩阵 作为 过 滤器 。 具 体 来 讲 就 


是 求 出 一 个 矩阵 大使 得 | Els 一 ( >》 >)” 最小。 其 中 EAX 一 B。 在 信息 过 滤 中 4 


是 输入 矩阵 ,是 训练 集 文 本 的 词 - 文 本 和 矩阵 ( 词 在 文本 中 的 权重 ),B 是 输出 矩阵 ,是 训练 集 文 
本 的 文本 -相关 主题 矩阵 (主题 在 文本 中 的 权重 )。 求 得 的 矩阵 X 是 一 个 关于 词 和 主题 的 回 
归 系 数 和 矩阵 , 它 反映 了 某 个 词 在 某 一 主题 类 中 的 权重 。 在 过 滤 过 程 中 ,用 相关 主题 未 知 的 文 


本 的 描述 向 量 立 与 回归 系数 矩阵 X 相 乘 就 得 到 了 反映 各 个 主题 与 该 文本 相关 度 的 矩阵 。 
相关 度 最 大 的 主题 就 是 该 文本 所 相关 的 主题 。 

6. 支持 向 量 机 

支持 向 量 机 算法 是 Vapnik 提出 的 一 种 统计 学 习 方 法 , 它 基 于 有 序 风险 最 小 化 归纳 法 
(Structural Risk Minimization Inductive Principle) ,通过 在 特征 空间 构建 具有 最 大 间隔 的 
最 佳 超 平面 ,得 到 两 类 主题 之 间 的 划分 准则 ,使 期 望 风险 的 上 界 达到 最 小 。 支 持 向 量 机 在 文 
本 分 类 领域 得 到 了 比较 成 功 的 应 用 ,成 为 表现 较 好 的 分 类 技术 之 一 ,其 主要 缺点 是 训练 过 程 效 
率 不 高 。N. Cancedda 等 人 将 这 种 方法 用 于 解决 自动 信息 过 滤 问 题 ,同样 取得 了 较 好 的 效果 。 

7. 概率 模型 

概率 模型 是 Stephen Roberson 等 人 提出 的 信息 检索 模型 ,该 模型 同样 可 以 用 于 信息 过 
滤 。 其 主要 特点 是 认为 文档 和 用 户 兴 趣 ( 查 询 ) 之 间 按 照 一 定 的 概率 相关 ,因而 在 特征 加 权 
时 融入 了 概率 因素 ,同时 也 综合 考虑 了 词 频 ,文档 频率 、 逆 文档 长 度 等 因素 。 


4.5.2 ”逻辑 方法 


逻辑 方法 就 是 研究 怎样 学 习 主题 过 滤 规 律 的 方法 ,该 方法 认为 知识 就 是 过 滤 。 人 逻辑 方 
法 比较 适应 于 具有 离散 变量 的 样本 。 对 于 连续 性 的 变量 ,常常 采用 一 些 离散 化 的 手段 把 它 
们 转化 成 离散 值 。 传 统 的 逻辑 方法 主要 包括 基于 覆盖 的 AQ 家 族 算法 、. 以 信息 焙 为 基础 的 
ID3 决策 树 算法 以 及 基于 Rough 集 理论 的 学 习 算法 。 

1. ID3 决策 树 (Decision Tree) 算 法 

ID3 是 Quinlan 于 1986 年 提出 的 一 种 重要 的 归纳 学 习 算法 ,在 机 器 学 习 中 有 广泛 的 应 
用 , 它 从 训练 集中 自动 归纳 出 决策 树 。 在 应 用 时 ,决策 树 算 法 基于 一 种 信息 增益 标准 来 选择 
具有 信息 的 词 , 然 后 根据 文本 中 出 现 的 词 的 组 合 判断 相关 性 。 决 策 树 有 以 下 3 个 特点 。 

(1) 使 用 一 棵 过 滤 决 策 树 表示 学 习 结果 ; 

(2) 决策 树 的 每 个 节点 都 是 样本 的 某 个 属性 ,采用 信息 炉 作 为 节点 的 选择 依据 ; 

(3) 采用 了 有 效 的 增 量 学 习 策略 。 

2. AQ11 算法 

AQ11 使 用 了 逻辑 语言 来 描述 学 习 结果 。 整 个 学 习 过 程 就 是 一 个 逻辑 演算 过 程 : 


E, "En= (et wei***et) Am (el ver"*en) 








= (ef Amel Amez… ATEn) v…(ef Amel Amez…ez) 
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其 中 ei €E Es 表示 正 例 样本 集合 中 的 一 个 正 例 样本 ,er € Ex 表示 反例 样本 集合 中 的 一 个 反 
例 样 本 ,然后 使 用 分 配 率 和 吸收 率 对 上 式 进行 简化 。 

3. 基于 Rough 集 理论 的 逻辑 学 习 算法 

Rough 集 是 波兰 数学 家 Pawlak 提出 的 一 种 不 确定 性 知识 的 表示 方法 ,后 来 被 人 们 用 
作 数 据 约 简 。 数 据 约 简 是 指 去 除 那些 对 于 过 滤 不 起 作用 的 元 素 , 分 为 只 删除 属性 值 的 值 约 
简 , 以 及 可 以 删除 整个 属性 的 属性 约 简 。 数 据 约 简 可 以 在 保持 相关 主题 一 致 的 约束 下 大 大 
简化 样本 数据 ,最 终 使 用 很 少 的 几 条 逻辑 规则 就 能 描述 过 滤 规 则 。 


4.6 网 络 信息 内 容 过 滤 典 型 系统 


本 节 针 对 互联 网 中 信息 需求 个 性 化 的 特点 ,首先 介绍 一 种 多 Agents 信息 过 滤 系 统 模 
型 。 接 下 来 ,从 中 文 网 页 信息 内 容 过 滤 系 统 的 需求 分 析出 发 ,讨论 基于 文本 匹配 的 过 滤 系 统 
的 设计 实现 。 


4.6.1 基于 多 Agents 的 过 滤 系 统 


由 于 Internet 信息 空间 的 分 布 性 、 异 构 性 ,人 们 对 信息 的 需求 体现 出 个 性 化 的 特征 。 本 
小 节 介 绍 一 种 采用 智能 Agents 技术 的 多 Agents 信息 过 滤 系 统 模型 ,该 模型 借助 上 面 介绍 
的 过 滤 算 法 对 系统 检索 得 到 的 结果 进行 信息 过 滤 , 按 照 用 户 需 求 过 滤 掉 无 关 信息 ,重视 用 户 
反馈 ,以 用 于 进一步 优化 用 户 的 检索 ; 同时 ,建立 个 性 化 知识 库 , 该 知识 库 可 使 得 检索 过 滤 
系统 能 够 自学 习 用 户 兴趣 ,为 信息 过 滤 自 动 化 过 程 提供 事实 依据 ,增强 自动 检索 功能 。 

1. 智能 Agents 技术 特点 

智能 Agents 是 一 种 计算 机 程序 , 它 在 计算 机 系统 中 的 执行 功能 类 似 于 现实 世界 的 
Agent。 软 件 Agent 是 一 个 处 于 某 种 环境 并 作为 环境 一 部 分 持续 自主 运行 的 实体 , 它 感知 
环境 并 作用 于 环境 ,执行 自己 的 议程 或 目标 序列 以 影响 其 将 来 可 以 感知 到 的 东西 。 在 充满 
分 布 性 、 异 构 性 的 Web 信息 空间 中 ,人 工 智能 方法 ,特别 是 智能 代理 (Agent) 技 术 , 为 基于 
Internet 的 信息 过 滤 系 统 提供 了 一 种 智能 化 的 信息 获取 和 访问 手段 ,是 实现 人 机 交互 学 习 ， 
信息 收集 、 过 滤 、 聚 类 以 及 融合 的 较 好 方法 ,尤其 是 应 用 在 智能 信息 方面 ,以 及 实现 对 传统 信 
息 检 索 系统 的 智能 化 接口 的 封装 上 有 和 较 好 的 效果 。 智 能 信息 Agent 具有 5 个 特性 。 

(1) 综合 性 (Integrated): Agent 必须 支持 一 个 易 懂 、 相 容 的 界面 。 

(2) 表达 性 (Experssive) : Agent 必须 接受 和 理解 不 同形 式 的 查询 。 

(3) 意图 性 (Goal-oriented) : Agent 必须 知道 “什么 时 候 ” 和 “如 何 完成 ”一 个 目标 任务 。 

(4) 合作 性 (Cooperative) : Agent 必须 同 用 户 进 行 合 作 。 

(5) 用 户 化 (Customized): Agent 能 够 适应 不 同 的 用 户 。 

正 是 由 于 智能 Agents 的 这 些 特性 ,许多 组 织 和 研究 采用 它 来 提高 网 上 信息 检索 的 能 
力 。 需 要 说 明 的 是 .本 书 介绍 的 基于 多 Agents 的 智能 信息 过 滤 系 统 并 不 给 出 各 个 Agents 
的 具体 形式 定义 和 实现 ,对 专门 Agents 技术 的 研究 已 经 超出 了 本 书 的 范畴 。 我 们 的 主要 目 
的 是 在 现 有 Agents 技术 的 基础 上 ,利用 Agent 的 特性 .给 出 一 个 个 性 化 的 基于 多 Agents 
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技术 的 智能 信息 过 滤 系 统 模型 ,以 便 从 智能 性 .主动 性 .扩充 性 、 易 维护 性 等 方面 弥补 现 有 智 
能 信息 过 滤 系 统 中 的 不 足 , 提 高 检索 速度 和 精度 ,帮助 人 们 最 大 限度 地 发 现 自己 感 兴趣 的 
问题 。 

2. 多 Agents 智能 过 滤 系统 中 知识 库 的 建立 

多 Agents 智能 过 滤 系 统 的 核心 是 知识 库 的 建立 ,建立 过 程 一 般 需要 3 个 表 , 分 别 用 来 
存放 学 习 得 到 的 3 种 知识 : @ 主 题词、 相关 词 和 过 滤 词 表 ; @ 用 户 个 性 化 文件 表 ; @ 检 索 结 
果 数 据 表 (WWW 资源 表 )。 

在 基于 关键 词 的 检索 过 程 中 ,通常 会 遇 到 关键 词 的 内 涵 和 外 延 不 够 明确 的 问题 ,为 此 ， 
我 们 引入 了 主题 词 和 关联 词 的 概念 。 主 题词 是 指 关键 词 ,关联 词 是 指 与 主题 词 相关 的 词 ,是 
对 主题 词 的 补充 。 关 联 词 分 为 限制 性 关联 词 和 近似 性 关联 词 ,关联 词典 就 是 这 些 关 联 词 的 
有 机 结合 。 在 关联 词典 中 存放 的 就 是 主题 词 和 与 之 对 应 的 关联 词 。 例 如 ,对 于 我 们 研究 的 
智能 Agent 而 言 ,主题 词 是 Agent, 其 相似 的 关联 词 是 “智能 代理 ”, 限 制 性 关联 词 是 "人 工 智 
能 ”。 可 见 ,近似 性 关联 词 就 是 与 原 主题 词 内 涵 相 同 的 词汇 ,限制 性 关联 词 就 是 对 原 主题 词 
外 延 加 以 限制 的 词汇 。 而 过 滤 词 表示 的 是 用 户 对 与 此 词 相关 的 信息 不 感 兴趣 的 词 。 用 户 提 
交 主 题词 和 过 滤 词 后 ,系统 会 构造 包含 主题 词 .关联 词 和 过 滤 词 的 布尔 表达 式 。 在 上 例 中 ， 
用 户 提交 主题 词 Agent 和 过 滤 词 “硬件 "后 ,系统 会 给 出 如 下 的 布尔 表达 式 : 

(((Agent \ 智 能 代理 ) 和 人 工 智能 ) A! 硬件 ) 
其 中 人 表示 "与 ”,v 表 示 " 或 ",! 表示 “ 非 ”。 

采用 关联 词典 的 优点 在 于 : 

(1) 用 户 界面 友好 。 采 用 关联 词典 ,用 户 不 必 适 应 各 种 搜索 引擎 的 关键 词 搜索 界面 和 由 
此 带 来 的 不 便 , 只 要 输入 主题 词 和 过 滤 词 ,系统 就 能 给 出 各 个 搜索 引擎 的 查询 词 , 供 其 调用 。 

(2) 用 户 可 以 根据 自己 的 需求 生成 不 同 的 关联 词典 ,从 而 满足 个 性 化 查询 。 其 结构 见 
表 4-1。 





表 4-1 关键 词 表 结构 





字段 名 说 明 
keyWordID 关键 字 ID 
KeyWord 主题 词 
RelevantWord 关联 词 
FilterWord 过 滤 词 


WWW 资源 表 存 储 从 WWW 上 获取 的 站 点 信息 ,包括 Title、.URL 文档 主题 内 容 、 站 点 
更 新 时 间 等 ,这 些 站 点 信息 大 多 数 是 用 户 感 兴趣 的 信息 ,这 为 进一步 的 信息 过 滤 提 供 本 地 资 
源 。 其 基本 结构 见 表 4-2。 
表 4-2 WWW 资源 结构 表 





字段 名 说 明 
PagelD 页 面 ID 
SiteID 所 属 站 点 


Title 页 面 标题 
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续 表 
字段 名 说 明 
URL 页 面 地 址 
StoredPath 存储 路 径 
Description 页 面 描述 
UpdateTime 页 面 更 新 时 间 
AnalysisResult 页 面 结 果 分 析 


用 户 个 性 化 文件 表 包 含 两 个 内 容 : 一 是 保存 了 各 个 用 户 感 兴趣 的 主题 信息 ; 二 是 保存 
了 用 户 经 常 性 的 网 络 行为 特征 ,例如 用 户 经 常 搜索 的 关键 词 信 息 、 经 常 访问 的 网 站 的 信息 、 
关键 词 的 访问 频率 等 。 

3. 多 Agents 智能 过 滤 系统 的 总 体 框 图 

图 4-5 给 出 了 一 种 通用 的 多 Agents 过 滤 系 统 结构 ,按照 功能 的 不 同 , 将 系统 分 成 用 户 
界面 Agent、 兴 趣 管理 Agent、 过 滤 查 找 Agent、 站 点 操作 Agent、 搜 索 更 新 Agent 和 系统 主 
控 Agent 六 大 部 分 。 其 中 ,用 户 界面 Agent 是 用 户 和 过 滤 系 统 的 中 介 ; 过 滤 查 找 Agent 接 
受用 户 的 特征 请 求 ,对 WWW 资源 库 进 行 查 找 和 过 滤 ; 兴趣 管理 Agent 接受 来 自用 户 界 面 
的 反馈 信息 ,对 个 性 化 文件 库 的 信息 进行 修改 ; 搜索 更 新 Agent 和 站 点 操作 Agent 是 面向 
网 络 操作 的 ,搜索 更 新 Agent 按 一 定 周期 自动 从 Web 上 获取 信息 补充 到 WWW 资源 库 中 ， 
站 点 操作 Agent 直接 面向 资源 系统 或 者 站 点 获取 信息 ,并 将 结果 返回 到 用 户 界面 Agent; 
系统 主 控 Agent 负责 多 Agents 之 间 的 通信 与 协作 。 

下 面 将 详细 介绍 系统 主要 模块 的 功能 及 采用 的 相关 技术 。 











系统 主 控 Agent 





用 户 输入 


人 用 户 界 面 Agent ”= 一 一 = 过 滤 查 找 Agent 
兴趣 管理 Agent 站 点 操作 Agent - 


















































搜索 更 新 Agent 


| | 


Web 信息 源 























4-5 多 Agents 过 滤 系 统 的 结构 
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1) 用 户 界 面 Agent 

用 户 界面 Agent 是 用 户 和 过 滤 系 统 的 中 介 , 其 主要 功能 包括 三 方面 : 一 是 实现 信息 导 
引 , 帮 助 用 户 确定 自己 需要 的 信息 所 在 的 领域 , 细 化 和 规范 查询 要 求 ; 二 是 提供 用 户 相关 信 
息 反馈 窗口 ,记录 用 户 对 查找 结果 的 满意 程度 ; 三 是 为 用 户 提供 注册 登录 界面 ,以 便 存储 用 
户 的 个 性 化 信息 ,这 是 用 户 兴趣 管理 的 一 部 分 ,也 是 个 性 化 服务 的 一 个 特点 。 

其 中 ,实现 信息 导 引 的 关键 技术 是 主题 信息 分 类 。 对 此 ,我 们 分 别 在 知识 库 中 建立 了 针 
对 不 同 用 户 不 同 主题 的 个 性 化 文件 库 和 关联 词 库 , 用 户 界面 Agent 根据 知识 库 对 用 户 提交 
的 查询 请 求 给 出 最 满意 的 表示 方式 。 对 反馈 信息 的 描述 一 般 采 用 等 级 化 选择 的 返回 方式 ， 
由 用 户 对 结果 匹配 的 满意 程度 做 出 评价 。 

2) 过 滤 查 找 Agent 

过 滤 查 找 功能 是 根据 用 户 界 面 Agent 的 请 求实 现 对 WWW 资源 库 的 查找 ,并 将 查找 结 
果 反 馈 给 用 户 界 面 。 这 里 所 涉及 的 技术 是 查找 方式 ,单纯 的 关键 词 匹配 查找 是 不 够 的 ,容易 
造成 返回 结果 过 多 或 定位 不 准确 。 我 们 这 里 充分 利用 布尔 模型 和 向 量 空间 模型 的 优点 ,给 
出 一 种 新 的 过 滤 算 法 ,同时 计算 用 户 特征 文件 与 检索 文档 的 匹配 度 和 相似 度 ,从 而 为 用 户 提 
供 最 能 反映 用 户 特 征 主题 的 过 滤 结 果 , 前 文 已 有 详细 介绍 。 过 滤 查 找 Agent 返回 的 只 是 用 
户 查找 的 中 间 结 果 , 例 如 ,相关 站 点 IP 地 址 和 站 点 的 主题 内 容 等 。 由 用 户 界面 Agent 返回 
中 间 结 果 给 用 户 , 并 由 用 户 人 工 选 定 后 ,再 交 给 站 点 操作 Agent, 由 其 直接 从 目标 站 点 获取 
所 需 结果 。 

3) 站 点 操作 Agent 

站 点 操作 Agent 是 直接 与 信息 源 进行 连接 获取 信息 的 代理 ,可 以 在 现 有 网 络 通信 协议 
TCP1/P 的 基础 上 实现 。 技 术 关键 在 于 Agent 与 相关 系统 之 间接 口 关 系 的 确定 。 我 们 的 方 
法 是 在 WWW 资源 库 中 直接 存储 资源 站 点 的 绝对 路 径 , 这 种 方案 与 当前 的 网 络 数据 获取 方 
式 是 一 致 的 ,但 前 提 是 WWW 资源 库 中 获取 数据 的 路 径 必须 绝对 正确 ,不 能 出 现 链接 不 上 
或 链接 错误 的 情况 。 

4) 兴趣 管理 Agent 

兴趣 管理 Agent 与 用 户 界面 Agent 以 及 个 性 化 文件 库 相连 ,接受 并 存储 用 户 界面 
Agent 的 反馈 评价 信息 表 , 能 对 用 户 反馈 意见 进行 统计 分 析 , 按 一 定 的 学 习 规 则 对 个 性 化 文 
件 库 Profile 中 特征 词 条 的 权重 信息 进行 修改 ,同时 根据 用 户 要 求 设 定 兴趣 监控 站 点 。 建 立 
合理 的 权重 更 新 修改 规则 是 该 Agent 的 技术 重点 ,可 以 引入 相关 反馈 技术 (Relevance 
Feedback) 和 Hopfield 神经 网 络 的 联想 记忆 学 习 功 能 进行 处 理 。 

5) 搜索 更 新 Agent 

搜索 更 新 Agent 的 主要 功能 是 完成 网 上 信息 的 自动 获取 ,实时 扩充 和 更 新 WWW 资源 
库 的 内 容 , 保 证 WWW 资源 库 中 的 站 点 信息 是 实时 的 、 正 确 的 和 有 效 的 。 关 键 技术 有 两 点 ， 
一 是 多 线程 机 制 ,提高 检索 速度 ; 二 是 借助 已 有 的 搜索 引擎 实现 自己 的 搜索 目标 。 最 常见 
的 问题 在 于 常用 的 搜索 引擎 用 户 接口 一 般 为 异 构 的 ,有 其 特定 和 复杂 的 连接 方式 和 查询 语 
法 。 针 对 这 种 状况 ,通用 的 解决 方案 是 在 搜索 更 新 Agent 模块 中 使 用 屏蔽 接口 转换 技术 ， 
将 搜索 引擎 的 位 置 .接口 等 细节 屏蔽 起 来 ,将 用 户 的 查询 转换 成 不 同 的 形式 连接 到 不 同 的 搜 
索引 擎 ,同时 将 不 同 搜索 引擎 的 返回 结果 处 理 成 一 致 的 形式 ,输入 WWW 资源 库 。 此 搜索 
更 新 Agent 具有 如 下 优点 。 
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(1) 将 用 户 的 查找 请 求 转换 为 若干 个 底层 搜索 引擎 处 理 格式 。 

(2) 向 各 个 搜索 引擎 发 送 查询 请 求 ,并 统一 返回 其 检索 结果 。 

(3) 不 需要 建立 庞大 的 索引 数据 库 , 也 不 需要 使 用 复杂 的 检索 机 制 ,便于 维护 。 

6) 系统 管理 模块 

该 模块 分 为 系统 初始 化 和 系统 设置 两 个 子 模块 。 系 统 初始 化 子 模块 在 系统 加 载 时 自动 
启动 ,该 模块 处 理 过 程 包 括 连接 数据 源 、 打 开 数 据 库 、 启 动 自动 网 页 监视 后 台 进程 初始 化 程 
序 界 面 . 调 出 已 写 和 人 注册 表 的 系统 初始 化 默认 信息 ,恢复 默 认 搜索 引擎 .恢复 默认 代理 该 置 
等 。 系 统 设 置 子 模块 用 于 重新 设置 代理 和 默认 的 搜索 引擎 等 ,所 设置 的 内 容 写 和 人 系统 配置 
表 , 当 再 次 启动 系统 时 ,该 配置 将 作为 默认 的 系统 参数 配置 。 

7) 知识 库 管 理 模 块 

对 用 户 长 期 没有 访问 的 网 站 信息 和 主题 兴趣 ,采用 一 定 策 略 减少 其 权 值 ,当权 值 低 于 预 
先 设 定 的 冰 值 时 ,将 该 网 站 信息 或 主题 兴趣 抛弃 ,这 样 可 以 避免 随 着 时 间 的 增加 ,数据 库 的 
内 容 无 限 增 大 ,达到 对 知识 库 进 行动 态 管理 和 维护 目的 ,并 且 提 高 程序 的 运行 速度 。 


4.6.2 基于 文本 匹配 的 过 滤 系统 

本 小 节 从 中 文 网 页 信息 内 容 过 滤 系 统 的 需求 分 析出 发 ,讨论 基于 文本 匹配 的 过 滤 系 统 
的 总 体 结构 设计 和 模块 划分 ,并 对 系统 各 模块 的 功能 进行 详细 阐述 。 

1. 总 体 设计 

系统 采用 后 台 程 序 和 监控 端 相 结 合 的 结构 。 监 控 端 负 责 网 页 信息 的 截获 ,并 将 其 反馈 
给 后 台 程 序 ,接收 后 台 程 序 的 命令 对 网 页 重 定向 不 做 处 理 。 后 台 程序 负责 网 页 信息 的 检测 
和 判定 ,并 将 判定 结果 发 送 给 监控 端 ,同时 ,维护 数据 库 更 新 并 提供 相关 管理 界面 等 。 系 统 
工作 原理 如 图 4-6 所 示 。 
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图 4-6 系统 工作 原理 


网 页 判定 流程 图 如 图 4-7 所 示 。 系 统 对 IE 浏览 器 实时 监控 , 当 监 控 到 用 户 有 新 的 访问 
请 求 时 ,系统 将 用 户 访问 的 URL 和 对 应 的 网 页 文本 信息 发 送 给 后 台 程 序 , 在 没有 接收 到 后 


第 4 章 网 络 信息 内 容 过 滤 87 








台 程序 指令 之 前 ,屏蔽 IE 浏览 器 的 显示 。 后 台 程 序 收 到 监控 端的 新 数据 后 进行 网 页 属性 判 
定 ,根据 网 页 的 URL 和 网 页 文本 信息 判定 网 页 性 质 ,并 发 送 判定 消息 到 监控 端 。 
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图 4-7 网 页 判定 流程 


系统 的 过 滤 方 法 采用 URL/IP 过 滤 和 内 容 过 滤 相 结合 的 方法 。 根 据 监控 端 发 到 后 台 
程序 的 网 页 信息 ,首先 ,判断 该 Web 页 面 的 URL 是 否 在 黑 名 单 上 ,车 网 页 在 黑 名 单 上 , 则 阻 
止 用 户 访 问 ; 若 不 在 则 进入 内 容 过 滤 模 块 ,对 文字 图 片 分 别 进行 处 理 得 到 Web 页 面 的 属性 
信息 ; 接着 ,根据 属性 信息 判断 是 否 阻止 用 户 访问 ,并 且 反 馈 给 数据 库 , 加 入 黑 名 单 。 由 于 
图 片 的 处 理 速 度 要 慢 于 文字 的 处 理 速 度 , 且 很 多 情况 下 文本 不 良 信息 和 图 像 不 良 信息 会 同 
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时 出 现 , 因 而 采用 先 文本 过 滤 后 图 片 过 滤 的 过 滤 策 略 ,这样 可 以 减少 图 片 过 滤 模块 的 调用 次 
数 ,从 而 提高 系统 的 处 理 速 度 。 当 然 ,在 系统 配置 允许 的 情况 下 ,也 可 以 将 文本 过 滤 和 图 片 
过 滤 并 行 处 理 。 

网 页 文本 过 滤 模 块 采用 字符 串 匹 配 过 滤 和 文本 分 类 过 滤 两 种 过 滤 模 式 相 结合 的 策略 。 
首先 依据 敏感 词 库 对 网 页 文本 信息 一 些 特定 的 位 置 进行 字符 串 检索 ,如 果 检索 出 敏感 词汇 ， 
则 判定 为 网 页 非法 ,发 送 判定 消息 给 监控 端 ,否则 继续 进入 文本 分 类 过 滤 检 测 , 通 过 文本 分 
类 算法 判定 网 页 属性 ,并 发 送 判定 消息 给 监控 端 。 对 于 判定 非法 的 网 页 , 须 及 时 反馈 URL 
(空格 ) 到 黑 名 单 库 , 当 再 次 访问 同一 个 网 页 时 就 不 需要 再 进行 文本 过 滤 模 块 处 理 。 由 以 上 
分 析 可 知 ,系统 采用 三 级 过 滤 的 策略 ,分 别 为 URL 过 滤 、 字 符 串 匹配 过 滤 和 文本 分 类 过 滤 。 
过 滤 顺 序 按照 处 理 速度 进行 排序 : URL 本 身长 度 很 短 ,检测 过 滤 只 需要 对 比 黑 名 单 ,处 理 
速度 最 快 ; 字符 串 匹 配 过 滤 在 网 页 的 一 部 分 文本 中 检索 敏感 词汇 ,将 文本 内 容 和 敏感 词 库 
进行 对 比 , 速 度 次 之 ; 文本 分 类 算法 计算 复杂 , 耗 时 最 长 。 三 级 处 理 中 任意 一 级 将 网 页 判定 
为 非法 网 页 后 ,就 不 需要 再 进行 接 下 来 的 判定 ,只 有 当 网 页 判定 为 正常 网 页 的 时 候 才 需要 进 
行 下 一 级 的 处 理 。 这 样 的 设计 策略 可 以 用 最 短 的 时 间 检 测 出 不 良 网 页 ,最 大 限度 提高 系统 
的 效率 ,保证 系统 的 实时 响应 。 

2. 模块 设计 

中 文 网 页 过 滤 系 统 最 关键 的 是 过 滤 算 法 的 设计 和 实现 。 系 统 总 体 设 计 采 用 三 级 过 滤 系 
统 , 将 过 滤 系 统 分 为 3 个 主要 的 模块 ,分 别 是 基于 IP/URL 的 过 滤 模 块 . 基 于 字符 串 模式 匹 
配 的 过 滤 模 块 和 基于 文本 分 类 技术 的 过 滤 模 块 。 下 面 对 各 个 模块 详细 设计 进行 说 明 。 


1) 基于 IP/URL 的 过 滤 模 块 

基于 IP/URL 的 过 滤 模块 是 3 个 过 滤 模 块 中 。 《 Web 页面 》 
的 最 上 层 ,网 页 信息 要 首先 经 过 该 模块 的 处 理 。 模 
块 流程 图 如 图 4-8 所 示 。 从 网 页 信息 中 提取 出 [am | 
URL, 然 后 在 黑 名 单 库 中 进行 查询 , 若 查询 到 该 


URL 则 表示 网 页 包含 不 良 信息 .并 予以 阻止 ,否则 
不 进行 处 理 ,进入 后 续 模 块 的 处 理 。 基 于 IP/URL 




















的 过 滤 模 块 的 所 有 操作 都 是 以 黑 名 单 库 为 中 心 , 转 

绕 黑 名 单 库 进行 的 ,由 此 可 见 模块 的 关键 是 黑 名 单 

库 的 设计 , 且 黑 名 单 库 的 设计 好 坏 直接 关系 模块 处 [ew | 局 
理 速度 的 快慢 。 黑 名 单数 据 库 主要 包含 2 个 查询 操 WH 

作 和 3 个 更 新 操作 。 





两 个 查询 操 分 别 是 : 


(1) 待 检测 网 页 URL 的 查询 。 

(2) 用 户 自 定义 黑 名 单 库 的 查询 操作 。 图 4-8 基于 IP/URL 的 过 滤 模块 流程 图 
黑 名 单 库 还 要 接受 3 个 更 新 操作 ,分 别 是 : 

(1) 接收 基于 字符 串 模式 匹配 的 过 滤 模 块 反馈 信息 。 

(2) 接收 基于 文本 分 类 技术 的 过 滤 模 块 反馈 信息 。 

(3) 接收 用 户 自 定义 操作 ,对 黑 名 单 库 进行 的 添加 和 删除 操作 。 
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2) 基于 字符 串 模 式 匹 配 的 过 滤 模 块 

网 页 文本 的 信息 一 般 包含 在 标题 ,正文 和 超 链 接 当中 。 标 题 通常 是 网 页 内 容 的 概括 ,一 
般 情况 下 , 当 人 们 看 到 标题 就 可 以 知道 文章 大 概 讲述 的 内 容 , 因 此 ,标题 中 一 般 包 含 比较 大 
的 信息 量 , 是 检索 敏感 信息 的 重点 。 相 比 于 标题 ,正文 内 容 较 长 ,但 是 重要 的 信息 一 般 会 在 
前 几 段 出 现 , 前 几 段 如 果 不 出 现 不良 信 息 , 则 后 面 再 出 现 不 良 信息 的 概率 就 比较 小 ,因此 , 正 
文 的 前 几 段 也 是 不 良 信息 检索 的 重点 。 现 在 越 来 越 多 的 网 站 通过 超 链 接 的 形式 蔡 入 到 其 他 
的 网 站 当中 ,而 超 链 接 中 的 文字 一 般 会 选择 比较 诱 人 且 信 息 量 大 的 文字 ,因此 ,这 也 成 为 检 
索 的 重点 。 由 以 上 可 以 看 出 ,从 标题 .正文 前 几 段 和 超 链接 中 检索 出 不 良 信息 的 概率 比较 
大 ,应 对 其 进行 特殊 处 理 。 

基于 字符 串 匹 配 技术 的 过 滤 模 块 的 流程 图 如 图 4-9 所 示 。 首 先 ,模块 得 到 用 户 将 要 访 
问 的 互联 网 Web 页 面 ,对 Web 页 面 进 行 分 析 , 提 取出 标题 \ 正 文 前 几 段 和 超 链接 ; 然后 , 初 
始 化 字符 串 模 式 匹配 算法 ,通过 敏感 词 库 在 标题 正文 前 几 段 和 超 链 接 中 进行 敏感 词汇 检 
索 , 若 没有 检测 出 不 良 信息 , 则 对 用 户 访问 不 加 限制 并 进入 后 续 模 块 的 处 理 , 一 旦 检索 出 敏 
感 词汇 , 则 阻止 用 户 访问 ,同时 将 网 页 的 URL 信息 反馈 给 黑 名 单 库 。 

































Web 页 面 
i 
提取 标题 提取 前 几 段 | 提取 超 链接 | 
| 
Y 
检索 算法 初始 化 =| ”检索 算法 | 
人 敏感 词 库 











阻止 访问 | 后 续 模块 | 








反馈 URL 

















图 4-9 字符 串 匹 配 过 滤 算 法 流程 图 
基于 字符 串 匹 配 的 过 滤 模 块 采用 AC-BMH 作为 其 核心 算法 ,这 主要 是 由 于 基于 字符 
串 匹 配 的 文本 过 滤 有 两 个 特点 : 一 是 主要 针对 中 文 文本 过 滤 ; 二 是 敏感 词 库 中 的 词语 一 般 
较 短 。 这 两 点 都 使 得 好 后 绥 规 则 的 应 用 较 少 ,起 主导 作用 的 是 坏 字符 规则 。 因 此 ,针对 这 种 
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大 字符 集 上 的 应 用 采用 AC-BMH 算法 ,只 使 用 坏 字符 规则 对 算法 进行 优化 ,提高 效率 。 敏 
感 词 库 的 建立 ,是 通过 对 大 量 文 章 中 词 频 的 统计 , 选 出 最 能 代表 人 敏感 文章 的 词语 。 高 频率 词 
汇通 常 是 文章 中 的 常用 语 , 如 “我 们 “开始 "等 ,这 些 词汇 在 所 有 文章 中 出 现 的 频率 都 很 高 
因而 不 能 代表 文章 的 类 别 ; 低频 词 包含 信 息 很 少 ,也 不 能 反映 文章 的 类 别 ; 最 能 表达 文本 
属性 的 一 般 是 文章 中 的 中 频率 词汇 。 通 过 词 频 统计 选 出 最 能 体现 文本 属性 的 中 频 词 ,将 这 
些 词 加 入 敏感 词 库 ,也 可 以 通过 人 工 手动 添加 作为 补充 ,同时 ,也 可 以 为 特定 用 户 、 特 定 的 过 
滤 添 加 不 同 的 词 库 。 敏 感 词 库 在 AC-BMH 算法 初始 化 时 通过 Init_tree 函数 读 取 并 添加 到 
模式 树 中 ,初始 化 时 对 词 库 顺序 没有 要 求 , 依 次 读 取 敏感 词 库 的 每 一 个 词汇 。 处 理 过 程 中 没 
有 复杂 的 处 理 和 其 他 数据 的 出 现 , 因 而 在 这 里 仅 采用 了 普通 文本 形式 来 存储 敏感 词 库 。 

3) 基于 文本 分 类 技术 的 过 滤 模 块 

基于 文本 分 类 技术 的 过 滤 模 块 是 3 层 过 滤 中 最 后 一 层 , 当 前 两 种 过 滤 策 略 都 将 网 页 判 
定 为 正常 网 页 的 时 候 才 进行 该 模块 的 处 理 。 文 本 分 类 技术 将 待 检测 文本 自动 分 类 ,具体 到 
中 文 网 页 过 滤 的 应 用 中 是 一 种 二 文本 分 类 ,文本 只 有 合法 和 非法 之 分 ,没有 类 别 的 区 分 。 该 
模块 的 数据 处 理 对 象 是 网 页 文本 的 正文 部 分 ,通过 分 类 模型 判定 文本 的 分 类 属性 ,依据 分 类 
属性 进行 过 滤 。 该 模块 涉及 整个 正文 部 分 的 检测 ,数据 处 理 量 大 ,分 类 模型 计算 复杂 ,因而 
整体 速度 偏 慢 。 模 块 首先 得 到 用 户 将 要 访问 的 互联 网 Web 页 面 ,提取 出 正文 内 容 ,然后 对 
正文 进行 预 处 理 , 得 到 分 类 器 可 以 识别 的 文本 数据 ,再 通过 分 类 计算 得 到 Web 页 面 的 属性 
判定 ,网 页 归 为 正常 网 页 则 允许 访问 , 若 归 为 不 良 网 页 则 阻止 访问 ,同时 将 网 页 的 URL 信 
息 反馈 给 黑 名单 库 。 

基于 文本 分 类 的 过 滤 模 块 选取 支持 向 量 机 算法 作为 模块 的 核心 算法 。 主 要 原因 有 
三 点 * 
第 一 ,中 文 网 页 过 滤 的 处 理 对 象 是 单个 的 Web 页 面 , 一 般 来 讲 页 面 比 较 小 ,而 支持 向 量 
机 算法 对 小 样本 分 类 时 速度 快 .分 类 准确 率 高 ; 

第 二 ,训练 样本 库 只 包含 支持 向 量 的 样本 ,训练 出 来 的 分 类 模型 占用 空间 少 ; 

第 三 ,支持 向 量 机 是 一 种 原生 的 两 类 分 类 算法 ,很 适合 网 页 过 滤 。 

支持 向 量 机 文本 分 类 算法 分 为 训练 过 程 和 识别 过 程 。 训 练 过 程 是 对 训练 样本 库 训 练 得 
出 分 类 模型 的 过 程 。 训 练 样本 库 中 的 数据 均 是 已 确定 分 类 属性 的 有 代表 性 的 文本 ,其 质量 
好 坏 关 系 到 分 类 模型 的 质量 ,进而 影响 到 系统 识别 过 程 的 准确 性 。 训 练 样本 库 中 的 不 良 文 
本 要 涵盖 暴力 、 色 情 和 反动 等 多 个 方面 的 文本 ,正常 文本 要 包含 政治 经济、 科技 ,生活 等 全 
方位 的 文本 。 这 样 的 样本 库 才 最 有 代表 性 ,也 最 能 突出 两 类 文本 各 自 的 特点 ,训练 出 来 的 分 
类 模型 的 准确 率 和 实用 性 才 会 更 好 。 由 于 没有 标准 库 , 只 能 从 网 络 手动 搜集 一 些 样本 库 资 
源 , 尽 可 能 做 到 准确 详尽 。 





4.7 本 章 小 结 


网 络 信息 过 滤 技 术 能 够 有 效 、 准 确 地 找到 用 户 感 兴趣 的 信息 ,为 用 户 提供 及 时 、 个 性 化 
的 信息 服务 ,真正 做 到 “用 户 所 需 ”"。 近 年 来 ,网 络 信 息 过 滤 技 术 获 得 了 长 足 的 发 展 , 越 来 越 
多 地 应 用 于 Web 空间 ,并 成 为 研究 和 工程 实践 的 热点 。 本 章 对 网 络 信 息 内 容 过 滤 技 术 展 开 
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论述 ,介绍 了 网 络 信息 过 滤 的 原理 ,概述 了 网 络 信息 过 滤 系 统 的 主要 类 型 ,深入 描述 了 网 络 
信息 内 容 过 滤 模 型 ,分 析 比 较 了 不 同 过 滤 模 型 ,并 对 其 中 的 关键 技术 进行 了 重点 研究 。 本 章 
的 内 容 是 后 续 章 节 的 理论 基础 。 


习 题 


. 网 页 内 容 过 滤 有 哪些 应 用 ? 目前 主要 有 哪些 方法 ? 
. 简单 描述 字符 串 匹配 过 滤 算 法 。 

. 试 描述 网 络 信息 内 容 过 滤 系 统 的 基本 框架 。 

. 简要 描述 网 络 信息 内 容 过 滤 的 主要 方法 。 

. 简单 比较 统计 和 逮 辑 方法 的 异同 和 优 缺点 。 


am oo 
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5.1 话题 检测 与 跟踪 概述 


5.1.1 话题 检测 与 跟踪 的 定义 


话题 检测 与 跟踪 (Topic Detection and Tracking,TDT) 是 一 项 旨 在 依据 事件 对 语言 文 
本 信息 流 进行 组 织 .利用 的 研究 ,也 是 为 应 对 信息 过 载 问题 而 提出 的 一 项 应 用 研究 。 与 一 般 
的 信息 检索 或 者 信息 过 滤 不 同 ,话题 检测 与 跟踪 所 关心 的 话题 不 是 一 个 大 的 领域 (如 美国 的 
对 华 政策 ) 或 者 某 一 类 事件 (如 恺 怖 活动 ) ,而 是 一 个 很 具体 的 “事件 (Event)”, 如 法 国 尼斯 恐 
袭 事件 、 习 近 平 访 美 等 。 为 了 区 别 于 语言 学 上 的 概念 ,话题 检测 与 跟踪 评测 会 议 对 “话题 "* 进 
行 了 定义 : 所 谓 话题 (Topic) ,就 是 一 个 核心 事件 或 活动 以 及 与 之 直接 相关 的 事件 或 活动 。 
而 一 个 事件 (Event) 通 常 由 某 些 原因 、 条 件 引 起 ,发 生 在 特定 时 间 、 地 点 ,涉及 某 些 对 象 ( 人 或 
物 ), 并 可 能 伴随 某 些 必然 结果 。 通 常情 况 下 ,可 以 简单 地 认为 话题 就 是 若干 对 某 事 件 相 关 
报道 的 集合 0?。“ 话 题 检测 与 跟踪 ” 则 定义 为 “在 新 闻 专 线 (Newswire) 和 广播 新 闻 等 数据 流 
中 自动 发 现 主题 并 把 主题 相关 的 内 容 联 系 在 一 起 的 技术 ”。 

话题 检测 与 跟踪 的 概念 最 早产 生 于 1996 年 ,当时 美国 国防 高 级 研究 计划 署 (DARPA) 
根据 自己 的 需求 ,提出 要 开发 一 种 新 技术 ,能 在 没有 人 工 干预 的 情况 下 自动 判断 新 闻 数 据 流 
的 主题 。1997 年 ,研究 者 开始 对 这 项 技术 进行 初步 研究 ,并 做 了 一 些 基 础 工作 (包括 建立 了 
一 个 针对 话题 检测 与 跟踪 研究 的 预 研 语料库 ) 。 当 时 的 研究 内 容 包 括 寻 找 内 在 主题 一 致 的 
片断 , 即 给 出 一 段 连 续 的 数据 流 ( 文 本 或 语音 ), 让 系统 判断 两 个 事件 之 间 的 分 界 , 而 且 能 自 
动 判 断 新 事件 的 出 现 以 及 旧事 件 的 再 现 。 从 1998 年 开始 ,在 DARPA 支持 下 ,美国 国家 标 
准 技术 研究 所 (NIST) 每 年 都 要 举办 有 关 话 题 检测 与 跟踪 的 国际 会 议 , 并 进行 相应 的 系统 评 
测 。2002 秋季 召开 了 话题 检测 与 跟踪 的 第 五 次 会 议 ( 即 TDT 2002)。 这 个 系列 的 评测 会 议 
作为 DARPA 支持 的 跨 语 言 信 息 检测 、 抽 取 和 总 结 (Translingual Information Detection， 
Extraction and Summarization,TIDES) 项 目下 的 两 个 系列 会 议 ( 另 一 个 是 文本 检索 会 议 
TREC) 之 一 , 越 来 越 受到 人 们 的 重视 。 参 加 该 评测 的 机 构 包 括 著名 的 大 学 .公司 和 研究 所 ， 
如 IBM Watson 研究 中 心 .BBN 公司 .卡耐基 - 梅 隆 大 学 .马萨诸塞 大 学 、 宾 州 大 学 马里兰 大 
学 、 龙 系统 公司 等 。 国 内 这 方面 的 研究 开展 得 要 晚 一 些 ,1999 年 国立 台湾 大 学 参加 了 话题 
检测 与 跟踪 话题 检测 任务 的 评测 ,香港 中 文大 学 参加 了 TDT 2000 的 某 些 子 任务 的 评测 。 
随 着 该 技术 应 用 的 普及 ,北京 大 学 和 中 科 院 计算 所 的 研究 人 员 也 开始 进行 这 方面 的 跟踪 和 


@@ ”对 这 种 相关 性 必须 做 一 个 界定 ,不 能 任 由 集合 无 限 扩 大 。 为 此 ,TDT 会 议 组 织 者 在 构造 TDT 语 料 时 ,对 挑选 出 
来 的 每 个 话题 都 定义 了 相关 性 判定 规则 。 
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研究 。 
话题 检测 与 跟踪 会 议 采 用 的 语 料 是 由 会 议 组 织 者 提供 并 由 语言 数据 联盟 (Linguistic 
Data Consortium,LDC) 对 外 发 布 的 话题 检测 与 跟踪 系列 语 料 。 目 前 已 公开 的 训练 和 测试 
语 料 包括 话 题 检测 与 跟踪 预 研 语 料 (TDT Pilot Corpus)、TDT2 和 TDT3 ,这 些 语 料 都 人 工 
标注 了 若干 话题 作为 标准 答案 。TDT2 和 TDT3 收录 的 报道 总 量 多 达 11. 6 万 篇 ,从 而 很 大 
程度 上 避免 了 数据 稀 芍 问题 的 影响 ,同时 也 能 很 好 地 验证 算法 的 有 效 性 。 总 的 来 看 ,话题 检 
测 与 跟踪 系列 评测 会 议 呈 现 两 大 趋势 : 一 是 努力 提高 信息 来 源 的 广泛 性 ,不 仅 包括 互联 网 
上 的 文本 数据 ,还 包括 来 自 广 播 , 电 视 的 语音 数据 ; 二 是 强调 多 语言 的 特性 。 从 1999 年 开 
始 , 话 题 检测 与 跟踪 会 议 引 入 了 对 汉语 话题 的 评测 ,2002 年 又 增加 了 阿拉 伯 语 的 测试 集 。 

可 以 看 到 ,话题 检测 与 跟踪 和 信息 抽取 的 研究 一 样 ,其 建立 与 发 展 是 以 评测 驱动 的 方式 
进行 的 。 这 种 评测 研究 的 方法 具有 以 下 一 些 特点 : 明确 的 形式 化 的 研究 任务 、 公 开 的 训练 
与 测试 数据 .公开 的 评测 比较 方法 。 它 将 研究 置 于 公共 的 研究 平台 上 ,使 得 研究 之 间 的 比较 
更 加 客观 ,从 而 让 研究 者 认 清 各 种 技术 的 优 劣 ,起 到 正确 引导 研究 发 展 方向 的 作用 。 接 下 来 
将 对 话题 检测 与 跟踪 中 常见 的 一 些 概念 进行 说 明 。 

1. 话题 

话题 检测 与 跟踪 技术 中 ,话题 (Topic) 被 定义 为 与 真实 世界 中 不 断 增 长 的 事件 相关 的 新 
闻 故 事 的 集合 。 在 最 初 的 研究 阶段 ,话题 和 事件 的 含义 相同 。 一 个 话题 是 指 由 某 些 原因 、 条 
件 引 起 ,发 生 在 特定 时 间 、 地 点 ,有 一 定 的 参与 者 或 设计 者 ,并 可 能 伴随 某 些 必然 结果 的 一 个 
事件 ,例如 “彻底 查 清 MH370 客机 失 联 原因 ”这 便 是 一 个 话题 。 目 前 使 用 的 话题 概念 要 相 
对 宽泛 一 些 , 它 包括 一 个 核心 事件 或 活动 以 及 所 有 与 之 直接 相关 的 事件 和 活动 。 如 果 一 篇 
报道 讨论 了 某 个 话题 的 核心 事件 直接 相关 的 时 间或 活动 ,那么 也 认为 该 报道 与 此 话题 相关 。 
例如 ,搜索 飞机 失事 的 幸存 者 、 安 药 死 难 者 都 被 看 作 与 某 次 飞机 失事 这 个 话题 相关 。 

2. 事件 

事件 (Event) 通 常 是 在 特定 时 间 、 地 点 发 生 的 事情 。 可 以 简单 地 认为 话题 就 是 若干 对 事 
件 相关 报道 的 集合 。 例 如 “2014 年 3 月 8 日 马 航 MH370154 客机 失 联 ”是 一 个 事件 而 不 是 
话题 ,“ 马 航 MH370154 客机 失 联 ?是 话题 而 不 是 事件 。 一 般 的 ,事件 是 话题 的 实例 ,与 一 定 
的 活动 相关 。 

3. 故事 

故事 (Story) 是 对 某 个 事件 的 相关 报道 。 在 话题 检测 与 跟踪 领域 中 , 它 是 指 一 个 与 话题 
紧密 相关 的 、 包 含 两 个 或 多 个 独立 陈述 某 个 事件 的 子 句 的 新 闻 片 段 。 

4. 话题 检测 

话题 检测 (Topic Detection) 旨 在 发 现 新 的 事件 并 将 谈论 某 一 事件 的 所 有 新 闻 报 道 归 和 人 
相应 的 事件 簇 ,所 以 话题 检测 本 质 上 是 一 种 特殊 的 文本 聚 类 技术 , 它 又 可 分 为 回溯 探测 和 在 
线 探测 。 回 溯 探 测 是 在 一 个 按 事件 次 序 累积 的 新 闻 报 道 流 中 发 现 以 前 未 经 确认 的 事件 并 在 
整个 数据 集合 上 进行 聚 类 , 它 允 许 系统 在 开始 话题 检测 任务 之 前 预览 要 处 理 的 整个 新 闻 报 
道 集 ,因而 可 以 获得 一 定 的 关于 待 处 理 文本 信息 流 的 先 验 知识 。 而 在 线 探测 的 目的 是 实时 
地 从 新 闻 媒体 流 中 发 现 新 事件 ,并 以 增 量 的 方式 对 输入 的 新 闻 报道 进行 聚 类 ,在 做 出 最 终 的 
决策 前 只 能 向 前 面 看 有 限 的 新 闻 报 道 。 
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5. 话题 跟踪 

话题 跟踪 (Topic Tracking) 就 是 通过 监控 新 闻 媒 体 流 以 发 现 与 某 一 已 知事 件 相关 的 后 
续 新 闻 报 道 。 通 常 需要 事先 给 出 一 个 或 几 个 已 知 的 关于 该 事件 的 新 闻 报道 。 这 项 研究 和 信 
息 检索 领域 中 基于 示例 的 检索 有 许多 共同 之 处 。 在 话题 跟踪 中 已 知 的 训练 正 例 非常 少 ,并 
且 与 某 个 事件 相关 的 报道 常常 集中 出 现在 某 一 特定 的 时 间 区 间 。 


5.1.2 话题 检测 与 跟踪 的 特点 


目前 来 看 ,话题 检测 与 跟踪 的 研究 呈现 以 下 特点 。 

(1) 大 多 数 已 公开 系统 采用 的 方法 主要 还 是 传统 的 文本 分 类 、 信 息 过 滤 和 检索 的 方法 ， 
专门 针对 话题 发 现 与 跟踪 自身 特点 的 算法 还 未 形成 ; 

(2) 要 取得 整体 上 比较 满意 的 效果 并 不 太 困 难 , 但 对 某 个 用 户 感 兴趣 的 特定 话题 , 现 有 
系统 都 无 法 保证 取得 满意 的 效果 ,例如 对 于 用 户 关注 的 “尼斯 恺 袭 事件 ,系统 不 能 保证 取得 
高 于 平均 值 的 准确 率 ; 

(3) 从 长 期 来 看 ,综合 使 用 多 种 相对 成 熟 的 方法 ,在 实际 应 用 中 可 能 效果 最 佳 ,同时 这 
也 是 将 来 的 一 个 研究 发 展 方向 。 

目前 话题 检测 与 跟踪 的 研究 现状 仍然 以 传统 基于 统计 策略 的 信息 检索 、 信 息 过滤 、 分 类 
和 聚 类 等 技术 为 主 ,忽视 了 新 闻 语 料 本 身 具备 的 特点 ,例如 话题 的 突 发 性 与 跳跃 性 、 相 关 报 
道 的 延续 与 继承 性 .新闻 内 容 的 层次 性 以 及 时 序 性 等 。 基 于 这 一 问题 ,当前 的 研究 趋势 是 将 
多 种 方法 进行 融合 ,并 典 入 新 闻 语 料 特性 实现 话题 的 识别 与 追踪 ,例如 结合 命名 实体 的 话题 
模型 描述 .以 时 间 为 参数 的 权重 与 冰 值 估计 等 。 虽 然 这 些 方 法 能 够 在 一 定 程度 上 提高 话题 
检测 与 跟踪 系统 性 能 ,但 其 只 是 对 传统 统计 策略 的 一 种 补充 与 修正 ,并 没有 形成 独立 于 话题 
检测 与 跟踪 领域 特有 的 研究 框架 与 模型 。 

总 而 言 之 ,话题 检测 与 跟踪 是 自然 语言 处 理 领域 中 一 个 重要 的 研究 课题 。 通 过 评测 驱 
动 的 方式 ,话题 检测 与 跟踪 的 研究 已 经 取得 了 相当 大 的 进展 。 但 当前 的 研究 主要 还 是 基于 
传统 的 统计 方法 ,这 些 方法 在 文本 分 类 ,信息 检索 、 信 息 过 滤 等 领域 得 到 广泛 的 应 用 。 将 来 
的 发 展 应 主要 关注 话题 本 身 的 特性 ,并 考虑 多 种 方法 的 综合 运用 。 话 题 检测 与 跟踪 的 发 展 
和 实际 应 用 息息相关 , 它 能 够 弥补 信息 检索 的 一 些 不 足 ,在 国家 信息 安全 、 企 业 市 场 调查 、 个 
人 信息 定制 等 方面 都 存在 着 实际 需求 。 随 着 现 有 系统 性 能 的 不 断 提高 ,话题 检测 与 跟踪 在 
各 个 领域 必 将 得 到 越 来 越 广泛 的 应 用 。 


5.1.3 话题 检测 与 跟踪 的 意义 


随 着 信息 传播 手段 的 进步 ,尤其 是 互联 网 的 出 现 , 信 息 急剧 膨胀 。 网 络 上 的 新 闻 报 道 是 
其 中 最 主要 的 信息 类 型 之 一 ,也 是 人 们 最 为 关注 的 信息 类 型 之 一 。 这 些 新 闻 报 道具 有 数量 
大 、 增 长 快 .主题 相关 、 时 效 性 强 、 动 态 演化 等 特性 ,已 成 为 信息 获取 的 主要 来 源 之 一 。 当 前 
我 们 采集 的 大 量 网 页 数据 中 ,新 闻 网 页 占有 很 大 的 比例 。 在 这 种 情况 下 ,如 何 快捷 、 准 确 地 
从 海量 的 新 闻 网 页 中 获取 感 兴趣 的 信息 , 便 是 我 们 关注 的 焦点 。 

目前 在 信息 获取 过 程 中 ,针对 这 种 数据 的 处 理 是 通过 传统 的 关键 词 检索 技术 来 完成 的 。 
由 于 网 络 信息 量 太 大 ,与 一 个 话题 相关 的 信息 往往 孤立 地 分 散在 不 同 的 时 间 段 和 地 方 ,这 种 
方法 返回 的 信息 元 余 度 过 高 ,很 多 不 相关 的 信息 仅仅 是 因为 引文 含有 指定 的 关键 词 ,就 被 作 
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为 结果 返回 了 。 并 且 其 中 的 相关 信息 并 没有 进行 有 效 的 组 织 , 只 是 简单 罗列 ,人 们 对 某 些 新 
闻 事 件 难以 做 到 全 面 的 把 握 , 在 人 员 和 处 理 设备 有 限 的 情况 下 ,势必 造成 大 量 数据 不 能 被 完 
全 处 理 。 这 样 不 仅 浪费 已 采集 的 资源 ,而 且 一 旦 丢掉 的 数据 中 包含 重要 价值 的 信息 ,就 会 造 
成 无 法 弥补 的 损失 。 

话题 检测 与 跟踪 技术 正 是 在 这 种 应 用 背景 下 产生 的 , 它 是 一 种 检测 新 出 现 话题 并 追踪 
话题 发 展 动 态 的 信息 智能 获取 技术 。 该 技术 能 把 分 散 的 信息 有 效 地 汇集 并 组 织 起 来 ,从 整 
体 上 了 解 一 个 话题 的 全 部 细节 以 及 该 话题 中 事件 之 间 的 相关 性 。 就 具体 的 应 用 而 言 , 该 技 
术 主要 用 于 满足 现实 中 的 一 些 信息 分 析 和 组 织 需求 。 例 如 ,对 于 政府 安全 分 析 人 员 , 他 需要 
关注 任何 可 能 给 网 络 上 带 来 巨大 波动 的 事件 的 发 生 和 发 展 状况 ; 对 于 国际 关系 或 社会 学 研 
究 者 ,他 有 时 需要 通过 某 种 技术 将 所 有 关于 某 一 新 闻 事件 的 新 闻 报道 自动 地 收集 并 整理 出 
来 ,以 便 进一步 对 该 事件 的 前 因 后 果 进 行 深 入 的 调查 和 研究 ,甚至 需要 对 该 事件 的 发 展 趋势 
做 出 预测 ; 对 于 情报 分 析 人 员 ,他 需要 密切 监视 国内 或 国际 上 发 生 的 重大 事件 等 。 

该 问题 的 研究 在 理论 与 实践 上 都 具有 非常 重要 的 意义 ,其 应 用 领域 已 经 由 信息 检索 .证 
券 市 场 分 析 扩 展 到 决策 支持 、 信 息 内 容 安 全 等 领域 。 将 现 有 的 理论 成 果 向 应 用 领域 推广 作 
为 该 研究 领域 的 重要 分 支 ,成 为 未 来 的 一 个 研究 热点 。 








5.2 话题 检测 与 跟踪 的 任务 


话题 检测 与 跟踪 的 研究 包含 了 5 项 基础 性 的 研究 任务 : 面向 新 闻 广 播 类 报道 的 切 分 任 
务 、 对 未 知 话题 首次 相关 报道 的 检测 任务 、 报 道 间 相关 性 的 检测 任务 、 面 向 未 知 话题 的 检测 
任务 以 及 面向 已 知 话题 的 跟踪 任务 。 


5.2.1 报道 切 分 


报道 切 分 (Story Segmentation Task,SST) 是 将 原始 数据 流 切 分 成 具有 完整 结构 和 统 
一 主题 的 报道 。 由 于 获得 的 文本 信息 流 本 身 就 是 以 单个 报道 的 形式 出 现 的 ,所 以 SST 面向 
的 数据 流 主要 是 广播 .电视 等 媒体 的 音频 数据 流 。 切 分 的 方式 分 为 两 类 : 一 是 直接 针对 音 
频 信 号 进行 切 分 ; 二 是 将 音频 信号 翻录 成 文本 形式 再 进行 切 分 。 前 者 的 切 分 对 象 是 未 经 翻 
录 的 广播 ,根据 音频 信号 的 分 布 规律 划分 报道 边界 ; 而 后 者 是 得 到 文本 形式 的 新 闻 报 道 , 然 
后 根据 主题 内 容 的 差异 估计 报道 边界 。 报 道 切 分 是 其 他 4 项 任务 的 预 处 理 ,也 就 是 说 ,其 他 
任务 都 是 在 报道 切 分 的 基础 上 进行 的 。 实 际 应 用 中 的 话题 检测 与 跟踪 系统 必须 保证 新 闻 报 
道 得 到 有 效 切 分 ,才能 进行 后 续 的 有 关 检 测 或 跟踪 研究 。 有 关 研 究 表明 . 它 对 各 种 识别 任务 
影响 很 大 ,对 跟踪 任务 影响 很 小 。 


5.2.2 首次 报道 检测 


首次 报道 检测 (First-Story Detection Task,FSD) 是 指 从 具有 时 间 顺 序 的 新 闻 报 道 流 中 
自动 检测 出 未 知 话题 出 现 的 第 一 篇 报道 。 虽然 首 次 报道 检测 与 话题 检测 的 任务 类 似 ,但 两 
者 的 输出 并 不 相同 ,前 者 输出 的 是 一 篇 报道 ,而 后 者 输出 的 则 是 一 个 关于 某 一 话题 的 报道 集 
合 。 在 TDT 2004 的 评测 中 ,将 数 次 报道 检测 转换 成 了 新 话题 检测 (New Event Detection， 
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NED)。NED 与 FSD 类 似 , 区 别 在 于 检测 对 象 从 话题 具体 化 为 事件 ,这 是 由 于 某 些 话题 的 
跳跃 式 出 现 , 即 话题 在 消失 一 段 时 间 后 重新 出 现 并 且 起 源 于 一 个 新 的 事件 。 例 如 "恐怖 主 
义 ”, 这 个 话题 可 以 包括 2013 年 的 美国 波士顿 马拉松 爆炸 案 和 2016 年 的 法 国 尼 斯 丽 袭 事 
件 , 这 两 个 话题 在 不 同 的 时 间 由 不 同 的 事件 引发 ,从 而 跳跃 式 出 现 。NED 就 是 要 研究 如 何 
区 分 不 同事 件 引发 的 相同 话题 。 


5.2.3 关联 检测 


关联 检测 (Link Detection Task,UDT) 的 主要 任务 是 对 给 定 的 两 篇 新 闻 报 道 做 出 判断 ， 
即 是 否 讨论 同一 个 话题 。 因 为 话题 检测 与 跟踪 的 本 源 问题 就 是 检测 话题 与 报道 之 间 以 及 报 
道 与 报道 之 间 的 相关 性 ,所 以 可 以 说 关联 检测 是 承载 话题 检测 与 跟踪 其 他 各 项 任务 的 基本 
平台 。 大 部 分 关联 检测 研究 关注 于 相关 性 计算 ,包括 文本 描述 及 特征 项 选择 。 常 用 的 关联 
检测 系统 使 用 余弦 相似 度 计算 。 


5.2.4 话题 检测 


话题 检测 (Topic Detection Task,TD) 的 主要 任务 是 检测 和 组 织 系统 预先 未 知 的 话题 。 
TD 要 求 在 所 有 话题 未 知 的 情况 下 构造 话题 模型 ,并 且 该 模型 不 能 独立 于 某 一 个 特例 话题 。 
话题 检测 系统 通常 分 为 两 个 阶段 : 四 检测 出 最 新 话题 ; 加 根据 已 经 检测 出 的 话题 ,收集 后 
续 与 其 相关 的 报道 。 话 题 检 测 意 在 将 输入 的 新 闻 报 道 归 人 不 同 的 话题 簇 ,并 在 需要 的 时 候 
建立 新 的 话题 禾 。 从 本 质 上 看 ,这 项 研究 等 同 于 无 指导 的 (系统 无 法 预先 知道 该 有 多 少 话题 
徐 、 什 么 时 候 建 立 这 些 话题 簇 ) 聚 类 研究 ,但 只 允许 有 限 地 向 前 看 。 通 常 的 聚 类 可 看 作 是 基 
于 全 局 信息 的 聚 类 , 即 在 整个 数据 集合 上 进行 聚 类 ,但 话题 检测 中 用 到 的 聚 类 是 以 增 量 方式 
进行 的 。 这 意味 着 在 做 出 最 终 的 决策 前 ,不 能 或 只 能 向 前 面 看 有 限 数量 的 文本 或 报道 。 话 
题 检测 作为 一 种 增 量 聚 类 ,可 以 划分 为 两 个 阶段 : 四 检测 出 新 事件 的 出 现 ; 四 将 描写 先前 
遇 到 的 话题 的 报道 归 人 相应 的 话题 簇 。 显 然 ,第 一 个 阶段 就 是 对 新 发 生 事件 的 检测 。 话 题 
检测 任务 是 对 新 话题 检测 任务 的 一 个 自然 扩展 。 但 是 ,这 两 项 任务 的 区 别 也 是 很 明显 的 : 
前 者 关心 的 是 将 谈论 某 个 话题 的 所 有 新 闻 报道 归 入 一 个 话题 秘 , 如 果 仅 仅 不 能 正确 检测 出 
对 某 个 话题 的 首次 报道 , 则 问题 并 不 严重 ; 后 者 则 正好 相反 , 它 只 关心 系统 能 否 将 引出 某 个 
话题 的 第 一 篇 报道 检测 出 来 。 


5.2.5 话题 跟踪 

话题 跟踪 (Topic Tracking) 的 任务 是 监测 新 闻 信 息 流 , 找 到 与 某 已 知 话题 有 关 的 后 续 
报道 。 其 中 ,已 知 话题 由 一 则 或 者 多 则 报道 得 到 ,通常 是 把 1 一 4 篇 相关 报道 作为 训练 报道 ， 
训练 得 出 话题 模型 。 然 后 ,判断 后 续 数 据 流 中 的 每 一 篇 新 闻 报 道 与 话题 的 相关 性 ,从 而 实现 
跟踪 功能 。 





5.3 话题 检测 与 跟踪 的 研究 体系 


自 1996 年 建立 话题 检测 与 跟踪 研究 雏形 以 来 ,历次 评测 都 为 话题 检测 与 跟踪 研究 领域 
内 出 现 的 新 问题 设立 了 相应 的 评测 任务 ,截至 TDT 2004,NIST 提供 的 所 有 评测 任务 基本 
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上 覆盖 了 话题 检测 与 跟踪 领域 内 的 大 部 分 研究 课题 。 

在 前 面 我 们 了 解 到 话题 检测 与 跟踪 的 研究 方向 主要 分 为 5 项 基础 性 的 研究 任务 , 即 报 
道 切 分 、 报 道 关联 性 检测 ,话题 检测 与 跟踪 以 及 针对 各 项 任务 的 跨 语言 技术 。 其 中 每 一 项 研 
究 都 不 是 孤立 存在 ,而 是 与 其 他 研究 相互 依存 与 辅助 的 。 例 如 ,报道 切 分 是 一 项 基础 性 研 
究 ,实际 应 用 中 的 话题 检测 与 跟踪 系统 必须 首先 保证 新 闻 报道 流 得 到 有 效 切 分 ,才能 进一步 
完成 后 续 的 检测 与 跟踪 任务 。 报 道 关 联 性 检测 的 目的 在 于 检验 两 篇 报道 是 否 在 论述 同一 话 
题 ,而 话题 检测 与 跟踪 的 本 源 问题 恰 是 检验 话题 与 报道 之 间或 报道 与 报道 之 间 的 相关 性 , 因 
此 关联 性 检测 是 承载 话题 检测 与 跟踪 其 他 各 项 任务 的 基本 平台 ,也 是 性 能 保证 的 前 提 条 件 ; 
话题 跟踪 系统 的 主要 任务 是 跟踪 特定 话题 后 续 的 相关 报道 ,而 话题 检测 系统 则 在 大 规模 新 
闻 报 道 流 中 识别 各 种 未 知 的 话题 ,因此 话题 检测 实质 上 为 跟踪 系统 提供 了 先 验 的 话题 模型 ， 
而 话题 跟踪 则 辅助 检测 系统 完善 对 话题 整体 轮廓 的 描述 。 此 外 ,话题 检测 与 跟踪 语 料 以 及 
实际 应 用 中 的 新 闻 资 源 都 包含 多 种 语言 形式 ,因此 各 项 话题 检测 与 跟踪 研究 任务 都 需要 涉 
及 相应 的 跨 语言 技术 。 总 而 言 之 ,话题 检测 与 跟踪 研究 框架 下 的 各 项 任务 互相 关联 并 统一 
为 一 个 有 机 整体 。 根 据 实际 应 用 的 需要 ,话题 检测 与 跟踪 各 项 任务 还 可 以 进一步 划分 成 面 
向 不 同 问题 的 子 课题 ,相对 完整 的 话题 检测 与 跟踪 研究 体系 如 图 5-1 所 示 。 


TDT LDT 


SST 
TSS 
BSS 
TT 
上 ATT 
TIT TDT CLTDT 


TD 


HDT 


图 5-1 话题 检测 与 跟踪 研究 体系 


一 般 来 说 ,报道 切 分 总 体 而 言 可 以 划分 成 两 种 研究 子 任务 : 一 种 是 基于 语音 识别 系统 
的 报道 切 分 ,另外 一 种 是 基于 内 容 的 报道 边界 识别 。 前 者 的 识别 对 象 是 未 经 过 翻录 的 广播 ， 
根据 语音 信号 的 分 布 规律 划分 报道 边界 ,后 者 则 将 广播 转录 为 文本 形式 ,根据 报道 之 间 主 题 
内 容 的 差异 估计 报道 边界 。 语 音 识别 系统 通常 可 以 相对 准确 地 识别 边界 ,但 是 边界 之 间 包 
含 的 信息 却 不 一 定 准 确 地 指向 一 个 报道 ,往往 其 中 包含 多 个 报道 。 而 基于 内 容 的 切 分 系 
统 虽 然 可 以 根据 话题 的 内 涵 识 别 出 不 同 报道 ,但 报道 与 报道 之 间 边 界 的 划分 相对 模糊 。 
因此 ,如 何 既 能 公正 地 区 分 报道 又 能 准确 地 定位 边界 ,是 SST 任务 不 容 忽视 的 两 个 主要 
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早期 话题 检测 与 跟踪 中 的 话题 检测 任务 (简写 为 TD) 主要 包含 首次 报道 检测 (简写 为 
FSD) 和 在 线 话题 检测 (简写 为 OTD) 两 项 子 课 题 。FSD 要 求 检测 系统 能 够 准确 定位 新 话题 
出 现 的 最 初 报道 ,OTD 则 不 仅 要 求 系统 识别 最 新 话题 ,同时 需要 收集 该 话题 的 所 有 相关 报 
道 。FSD 可 以 看 作 OTD 的 前 提 : 通常 ,新 话题 的 首次 报道 构成 该 话题 的 最 初 描 述 ,后 续 报 
道 相关 性 的 裁决 都 以 该 报道 为 对 照 标准 ,即使 随 着 相关 报道 逐渐 增多 ,话题 模型 的 质心 相应 
发 生 漂移 ,但 是 话题 的 主线 并 没有 脱离 首次 报道 描述 的 内 涵 。 相 反 ,OTD 是 对 FSD 的 补 
充 : 新 话题 不 仅 包含 对 其 进行 报道 的 第 一 篇 文本 ,同时 也 包含 后 续 与 之 直接 相关 的 外 延 ,只 
有 综合 所 有 相关 报道 才能 完整 地 勾勒 出 对 应 的 话题 。 

近年 来 ,TD 研究 领域 得 到 进一步 拓展 。 其 中 ,TDT 2004 设置 了 新 事件 检测 (简称 为 
NED) 任 务 ,NED 要 求 检 测 系 统 能 够 针对 具备 时 间 顺 序 的 新 闻 语 料及 时 地 检测 出 最 新 发 生 
的 事件 。NED 与 FSD 面向 的 问题 非常 类 似 ,区 别 在 于 检测 对 象 从 话题 具体 化 为 事件 ,其 原 
因 是 某 些 话题 跳跃 式 出 现 的 特性 , 即 话题 在 消失 一 段 时 间 后 重 现 并 起 源 于 一 个 新 的 事件 。 
例如 关于 “* 恺 怖 袭击 ”的 话题 ,包括 2013 年 美国 波士顿 马拉松 爆炸 案 、2015 年 巴黎 恺 怖 袭击 
案件 和 2016 年 法 国 尼斯 空袭 案 等 。 其 中 ,每 次 恐怖 袭击 都 是 一 个 种 子 事件 并 伴随 大 量 相关 
报道 ,因此 话题 在 不 同时 间 由 不 同事 件 多 次 引发 ,从 而 跳跃 式 地 出 现 。 话 题 的 这 一 特性 引起 
了 关于 TD 研究 的 两 种 思考 , 即 怎样 区 分 不 同事 件 引发 的 相同 话题 .是否 当前 被 检测 到 的 话 
题 在 历史 上 从 未 出 现 过 。NED 就 是 面向 第 一 种 思考 提出 的 检测 任务 ,区 别 于 传统 的 FSD 
系统 ,NED 更 关注 特定 时 间 与 地 点 发 生 的 最 新 事件 。 此 外 ,Yiming Yang 提出 一 种 回顾 式 
话题 检测 (简称 为 RED) 的 研究 方向 ,目的 在 于 回顾 历史 上 的 所 有 报道 ,检测 与 话题 相关 的 
所 有 事件 。 由 此 ,NED 与 RED 补充 了 TD 研究 中 出 现 的 上 述 两 项 课题 。 

TDT 2004 设置 的 另外 一 项 新 任务 是 层次 话题 检测 (简称 为 HTD) ,目的 在 于 区 分 报道 
内 容 在 层次 上 的 差异 ,从 而 建立 结构 化 的 话题 模型 。 总 体 而 言 ,话题 检测 研究 的 发 展 逐 步 面 
向 结构 化 和 层次 化 ,TD 系统 不 仅 需要 善于 识别 话题 和 收集 相关 报道 ,同时 需要 有 效 地 分 析 
话题 内 部 的 层次 结构 .区 分 不 同 组 成 部 分 并 挖掘 外 界 的 相关 历史 信息 。 

区 别 于 未 知 话题 识别 的 TD 系统 ,话题 跟踪 (简称 为 TT) 的 主要 任务 在 于 跟踪 已 知 话 
题 的 后 续 报 道 。 通 常 , 突 发 事件 的 产生 会 引发 大 量 相关 报 道 , 随 着 事件 受 关注 程度 的 降 
低 , 相 应 报道 逐渐 衰减 直至 消失 。 在 这 个 过 程 中 ,话题 在 不 同 历史 阶段 的 论述 重心 将 有 
所 漂移 。 例 如 ,2001 年 “9。11” 事 件 发 生 的 最 初 一 段 时 间 内 ,大 量 报道 主要 集中 于 事件 本 
身 ,包括 “客机 撞击 世贸 “世贸 大 厦 损 和 毁 ” 以 及 伤亡 情况 统计 。 随 着 事态 的 发 展 ,相关 报道 的 
重心 逐渐 转移 到 “灾后 处 理事 件 调 查 ” 和 “美国 民众 的 反应 ”; 最 后 话题 集中 于 “ 怒 怖 主义 ” 
“ 反 刺 战争 "以 及 “世界 范围 内 的 反 疏 政 策 " 等 。 因 此 ,一 个 完整 的 话题 不 仅 包括 最 初 事件 的 
相关 报道 ,还 涉及 后 续 相 对 拓展 的 外 延 ,TT 任务 就 是 面向 这 一 问题 提出 的 。TDT 2004 设 
置 了 有 指导 的 自 适应 话题 跟踪 任务 (ATT) ,其 与 传统 TT 系统 的 区 别 在 于 嵌入 了 自学 习 机 
制 ,可 以 使 跟踪 系统 实时 地 依据 话题 的 发 展 自动 更 新 话题 模型 ,从 而 有 效 追 踪 话 题 的 报道 
趋势 。 





第 5 章 ”话题 检测 与 跟踪 99 





5.4 相关 研究 现状 


5.4.1 关联 检测 


关联 检测 (LDT) 的 主要 任务 是 检测 随机 选择 的 两 篇 报道 是 否 论 述 同 一 话题 ,并 分 析 它 
们 之 间 的 关联 关系 。 与 其 他 话题 检测 与 跟踪 任务 不 同 的 是 ,LDT 研究 并 没有 直接 对 应 的 实 
际 应 用 ,但 是 它 对 其 他 话题 检测 与 跟踪 研究 起 到 的 辅助 作用 却 是 无 法 忽视 的 。 例 如 ,新 事件 
检测 任务 (NED) 中 ,NED 系统 可 以 通过 LDT 鉴定 候选 报道 与 每 个 先 验 报道 之 间 的 相关 性 ， 
判断 候选 报道 是 否 论述 了 一 个 新 话题 ,或 者 相关 于 先 验 报道 隶属 的 旧 话 题 。 就 传统 基于 概 
率 统计 的 话题 检测 与 跟踪 研究 而 言 , 报 道 与 话题 或 者 报道 与 报道 之 间 的 相关 性 ,都 是 通过 检 
验 两 者 之 间 共 有 特征 的 覆盖 比例 进行 评判 的 。 换 言 之 ,两 者 共有 的 特征 越 多 ,那么 它们 相关 
的 可 能 性 越 大 。 因 此 ,大 部 分 针对 LDT 的 研究 都 将 问题 的 重心 集中 于 文本 描述 以 及 特征 
选择 。James Allan 和 Schultz 采用 向 量 空间 模型 (简称 为 VSM) 描 述 报 道 的 特征 空间 ,根据 
特征 在 文本 中 的 概率 分 布 估计 权重 ,利用 余弦 夹 角 衡 量 报道 之 间 的 相似 性 。 此 外 ,Leek 和 
Yamron 将 参与 检测 的 两 篇 报道 分 别 看 作 一 个 话题 和 一 篇 报道 ,采用 语言 模型 (简称 为 LM) 
描述 报道 产生 于 某 话题 的 概率 ,并 通过 调换 两 篇 报道 的 角色 分 别 从 两 个 方向 估计 它们 的 产 
生 概 率 , 最 终 的 相关 性 则 依据 这 两 种 概率 分 布 ,采用 Kullback-Leibler Divergence( 简 称 为 
KLD) 算 法 综合 得 出 。VSM 和 LM 存在 的 主要 缺陷 在 于 特征 空间 的 数据 稀 玖 性 ,通常 解决 
这 一 问题 的 方法 是 数据 平滑 技术 ,但 是 平滑 得 到 的 特征 权重 往往 被 泛 化 ,无 法 有 效 描述 文本 
内 容 上 的 差异 。 另 一 种 解决 数据 稀 玖 的 方法 是 特征 扩展 技术 。 在 信息 检索 中 ,特征 扩展 主 
要 应 用 于 Query 扩展 ,其 核心 思想 是 将 Query 中 的 特征 扩展 为 同 义 或 直接 相关 的 其 他 特 
征 ,从 而 降低 稀 朴 性 。Ponte 和 Croft 采用 向 量 空 间 模 型 ,并 基于 特征 上 下 文 的 扩展 技术 执 
行 LDT 任务 ,其 选择 待 测报 道中 权重 较 大 的 特征 作为 扩展 对 象 ,通过 围绕 特征 经 常 出 现 的 
上 下 文 信息 对 其 进行 扩展 ,特征 空间 由 原始 和 扩展 的 特征 项 共同 组 合 而 成 。 扩 展 技术 不 仅 
有 助 于 解决 数据 稀 玻 问 题 ,而 且 可 以 辅助 LDT 系统 削弱 特征 的 歧义 性 。 


5.4.2 话题 跟踪 


1. 传统 话题 跟踪 

传统 话题 跟踪 (Traditional Topic Tracking,TTT) 主 要 包括 基于 知识 和 基于 统计 的 两 
种 研究 趋势 。 前 者 的 核心 问题 是 分 析 报道 内 容 之 间 的 关联 与 继承 关系 ,通过 特定 的 领域 知 
识 将 相关 报道 串联 成 一 体 。 后 者 则 根据 特征 的 概率 分 布 , 采 用 统计 策略 裁决 报道 与 话题 模 
型 的 相关 性 。 

基于 统计 策略 的 TTT 研究 则 主要 借鉴 基于 内 容 的 信息 过 滤 ( 简 称 为 IF)。 如 前 文 所 
述 ,IF 面向 静态 需求 从 动态 的 信息 流 中 识别 和 获取 相关 知识 .TTT 则 根据 先 验 的 话题 模型 
追踪 后 续 相 关 报道 。 虽然 TTT 更 关注 突 发 事件 的 识别 与 跟踪 ,但 任务 整体 框架 的 相似 性 
决定 了 IF 中 的 许多 相关 技术 都 可 以 有 效 地 应 用 于 TTT。 其 中 最 有 代表 性 的 方法 是 基于 分 
类 策略 的 话题 跟踪 研究 ,例如 CMU 在 TTT 评测 中 采用 了 两 种 分 类 算法 ,分 别 是 K- 最 近邻 
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(K-Nearest Neighbor, 简写 为 KNN) 和 决策 树 (Decision Tree, 简写 为 D-Tree)。 其 中 ， 
KNN 首先 根据 内 容 的 相关 性 选择 与 当前 报道 最 相似 的 上 个 先 验 报道 作为 最 近邻 ,然后 根据 
最 近邻 所 属 话题 类 别 综合 判定 当前 报道 论述 的 话题 。D-Tree 则 根据 训练 语 料 预 先 构造 话 
题 的 决策 树 , 该 树 形 结构 中 的 每 个 中 间 节 点 代表 一 种 决策 属性 , 即 报道 相关 于 话题 的 条 件 ， 
节点 产生 的 分 支 则 分 别 代表 一 种 决策 并 指向 下 一 层 子 节点 ,决策 树 的 叶 节 点 代表 话题 类 别 ， 
输入 决策 树 的 待 测报 道 经 过 逐 层 节点 的 判断 ,最 终 划分 于 特定 话题 类 别 。KNN 与 D-Tree 
面临 的 主要 问题 是 先 验 相关 报道 的 稀 玻 性 ,TTT 任务 一 般 只 给 定 少量 相关 报道 作为 训练 
(1 一 4 篇) 。 稀 玻 性 造成 KNN 算法 无 法 使 待 测报 道 的 最 近邻 涵盖 大 量 正确 的 相关 报道 ,从 
而 根据 这 些 近 邻 得 到 的 判断 往往 指向 错误 的 话题 模型 ; 而 D-Tree 则 在 训练 过 程 中 无 法 为 
每 个 属性 节点 宜 入 准确 的 决策 条 件 。 总 体 而 言 ,.KNN 的 性 能 优 于 D-Tree, 其 原因 在 于 前 者 
可 以 通过 缩减 最 近邻 的 规模 来 保证 跟踪 的 正确 率 ; 而 后 者 则 受 限于 多 层 属性 需要 同时 产生 
正确 的 决策 ,而 相关 报道 稀 玻 的 训练 语 料 使 多 数 属性 本 身 不 够 准确 (例如 Bigram 的 概率 统 
计 ), 因 此 在 没有 改进 漏 检 率 的 情况 下 加 大 了 误 检 率 。 

UMass 采用 二 元 分 类 方法 跟踪 话题 的 相关 报道 。UMass 借鉴 了 ODT 的 相关 研究 , 即 
陆续 到 来 的 后 续 报 道 或 者 与 已 有 话题 相关 ,或 者 论述 的 是 新 话题 。 基 于 这 种 假设 ,二 元 分 类 
将 训练 语 料 划分 为 相关 和 不 相关 两 种 报道 类 别 , 并 根据 两 类 报道 与 话题 相关 性 的 概率 分 布 
训练 线性 分 类 器 ,后 续 报 道 的 相关 性 依据 线性 判别 式 进行 裁决 。 二 元 分 类 方法 的 优点 在 于 
精确 率 很 高 ,但 必须 依赖 训练 语 料 和 分 类 器 的 选择 ,通常 选择 相关 度 指标 较 高 的 不 相关 报道 
构成 反例 类 别 , 从 而 保证 分 类 面 的 灵敏 度 。 分 类 器 的 选择 则 必须 确保 线性 判别 式 在 训练 过 
程 中 有 人 解 , 而 整体 性 能 可 以 通过 Boosting 算法 进行 提高 。 与 KNN 和 D-Tree 类 似 的 是 , 先 
验 相关 报道 的 稀 玻 性 一 定 程度 上 影响 了 二 元 分 类 方法 的 召回 率 , 相 应 地 UMass 采用 Query 
扩展 技术 完善 了 这 一 缺陷 。 

James Allan 和 Michael 采用 Rocchio 算法 实施 跟踪 。Rocchio 的 核心 思想 是 话题 模型 
经 验 性 的 构造 策略 , 即 假设 相关 报道 中 的 特征 有 助 于 话题 的 正确 描述 ,因此 这 些 特征 在 话题 
模型 中 的 权重 被 加 强 ,而 不 相关 报道 中 的 特征 则 趋向 于 错误 地 引导 话题 描述 ,因此 权重 被 削 
弱 。Rocchio 算法 的 最 大 优点 是 可 以 利用 跟踪 到 的 后 续 报 道 不 断 改进 和 更 新 话题 模型 ,从 
而 跟踪 话题 的 后 续 报道 。 缺 陷 在 于 Rocchio 算法 对 阔 值 的 依赖 程度 很 高 : 如 果 初 始 阔 值 设 
置 过 高 , 则 后 续 相 关 报 道 的 漏 检 率 加 大 ; 如 果 阔 值 设 置 过 低 , 则 将 引入 大 量 噪声 。 其 中 ,后 
者 对 TTT 性 能 造成 的 损失 最 大 ,因为 大 量 噪声 直接 误导 话题 模型 的 更 新 ,从 而 导致 跟踪 方 
向 的 偏差 。 

其 他 面向 TTT 的 研究 工作 还 包括 话题 与 报道 的 相似 度 匹 配 算法 ,例如 Dragon 分 别 通 
过 基于 一 元 语言 模型 的 文本 相似 度 匹 配 和 基于 二 项 式 的 相似 度 匹配 衡量 话题 与 报道 的 相关 
性 。 而 Franz 和 Carley 则 尝试 采用 聚 类 方法 将 话题 检测 系统 转化 成 跟踪 系统 。 近 期 ， 
Yiming Yang 和 Larkey 分 别 采 用 小 规模 的 先 验 报道 翻译 模型 和 源 语言 模型 进行 跨 语言 
TTT 研究 。 上 述 方法 对 于 传统 的 话题 跟踪 任务 能 够 发 挥 较 好 的 作用 .但 由 于 构造 话题 模型 
的 初始 信息 相对 稀 朴 ,因此 无 法 有 效 跟踪 一 段 时 期 以 后 话题 的 发 展 。 

2. 自 适应 话题 跟踪 

如 前 文 所 述 ,NIST 为 话题 跟踪 任务 仅 提供 1 一 4 篇 相关 报道 用 于 构造 话题 模型 。 类 似 
的 是 ,实际 应 用 中 的 用 户 对 突 发 性 新 闻 具 备 的 先 验 知识 通常 也 很 少 , 这 就 造成 初始 训练 得 到 
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的 话题 模型 不 够 充分 和 准确 。 因 此 ,一 种 具备 自学 习 能 力 的 无 指导 自 适 应 话题 跟踪 
(Adaptive Topic Tracking,ATT) 逐 渐 成 为 TT 领域 新 的 研究 趋势 。 总 体 而 言 ,ATT 的 相 
关 研 究 主要 包括 两 个 方面 , 即 基于 内 容 和 基于 统计 的 方法 。 

在 基于 内 容 的 ATT 相关 研究 中 ,GER 尝试 采用 文摘 技术 跟踪 话题 的 发 展 趋势 。 其 核 
心思 想 是 分 别提 取 话 题 与 报道 的 文摘 代替 全 文 描述 ,话题 与 报道 之 间 的 相关 性 通过 文摘 之 
间 的 相似 度 进 行 计 算 。 通 常 ,话题 的 相关 报道 在 不 同 历史 时 期 的 侧重 点 不 尽 相 同 , 因 此 话题 
的 发 展 以 初始 事件 为 主线 ,并 以 后 续 直 接 相 关 的 其 他 事件 和 活动 为 延续 。 基 于 这 一 特点 ， 
GER 将 先 验 相关 报道 中 的 事件 主体 和 相关 外 延 以 文摘 的 形式 进行 提取 与 组 合 ,根据 这 种 方 
法 构造 的 话题 模型 除了 涵盖 主题 信息 以 外 ,更 注重 话题 发 展 的 层次 结构 ,从 而 使 跟踪 系统 更 
善于 检测 话题 的 后 续 进 展 。 其 缺陷 在 于 ,GER 的 跟踪 系统 没有 嵌入 自学 习 机 制 ,话题 模型 
没有 利用 检测 到 的 后 续 相关 报道 自 适应 地 更 新 。 因 此 , 当 跟 踪 进 行 到 一 定 阶段 后 ,系统 无 法 
识别 最 新 的 相关 报道 。 

基于 统计 策略 的 ATT 研究 主要 借鉴 于 自 适应 信息 过 滤 。 核 心思 想 是 ATT 系统 可 以 
根据 伪 相 关 反 馈 对 话题 模型 进行 自学 习 , 不 仅 为 话题 蔡 入 新 的 特征 ,同时 动态 调整 特征 权 
重 。 其 优点 在 于 削弱 先 验 知识 稀疏 造成 的 话题 模型 不 完备 性 ,并 通过 不 断 自 学 习 提 高 ATT 
系统 跟踪 话题 发 展 的 能 力 。Dragon 和 UMass 是 最 早 尝试 无 指导 ATT 研究 的 单位 之 一 。 
其 跟踪 系统 每 次 检测 到 相关 报道 ,都 将 它 戏 入 话题 模型 并 改进 特征 的 权重 分 布 , 后 续 报 道 的 
相关 性 则 以 新 生成 的 话题 模型 为 评估 对 象 , 从 而 实现 跟踪 系统 的 自学 习 功 能 。Dragon 与 
UMass 的 区 别 在 于 ,前 者 把 系统 认为 相关 的 报道 嵌入 训练 语 料 , 并 基于 语言 模型 构造 新 的 
话题 模型 ; 后 者 则 将 所 有 先 验 报 道 的 质心 作为 话题 模型 ,并 将 先 验 报道 与 话题 模型 相关 度 
的 平均 值 作为 阔 值 ,后 续 跟 踪 过 程 中 每 次 检测 到 相关 报道 ,都 将 其 嵌入 训练 语 料 , 并 根据 上 
述 方法 重新 估计 话题 模型 和 阔 值 。 总 体 而 言 , 这 两 种 方法 并 没有 很 大 程度 地 提高 话题 跟踪 
系统 的 性 能 。 其 主要 原因 在 于 自学 习 模 块 对 于 跟踪 反馈 不 施加 任何 鉴别 地 全 部 用 于 话题 模 
型 的 更 新 ,而 系统 反馈 本 质 上 是 一 种 伪 反 馈 , 即 同时 包含 相关 报道 和 不 相关 报道 ,因此 学 习 
过 程 将 大 量 不 相关 信息 也 嵌入 话题 模型 ,从 而 导致 话题 漂移 。 基 于 这 一 现象 ,LIMSI 在 原 
有 自学 习 过 程 中 和 戏 和 二 次 阔 值 截取 功能 .通过 设置 一 个 比 阔 值 更 高 的 过 滤 指 标 , 截 取 伪 反 馈 
中 相关 度 较 高 的 报道 嵌入 话题 更 新 模块 ,从 而 削弱 了 话题 漂移 。 通 常 ,ATT 自学 习 过 程 中 
的 核心 问题 是 特征 权重 的 更 新 策略 ,LIMSI 比较 了 基于 静态 和 动态 两 种 方式 的 权重 更 新 策 
略 : 前 者 对 权重 的 更 新 指标 乘 以 经 过 训练 的 固定 参数 ; 后 者 将 报道 与 话题 的 相关 度 映 射 为 
线性 函数 ,特征 权重 根据 线性 函数 动态 确定 。 该 方法 的 特点 在 于 话题 每 次 更 新 后 ,特征 权重 
基于 话题 模型 的 条 件 概率 都 相应 得 到 改进 。 此 外 ,动态 更 新 机 制 优 于 静态 更 新 的 另 一 个 原 
因 在 于 ,前 者 的 特征 调整 融和 了 报道 与 话题 模型 的 相似 度 , 并 且 所 有 伪 反 馈 都 可 以 参与 更 
新 ; 而 后 者 则 独立 地 根据 概率 分 布 估计 权重 ,并 且 必 须 依靠 经 验 性 的 阔 值 ,截取 最 相关 的 报 
道 参 与 更 新 ,因此 在 没有 明显 提高 精确 率 的 同时 ,大 量 损失 召回 率 。 

目前 ,话题 跟踪 的 相应 研究 已 经 取得 很 好 的 效果 ,但 如 何 更 有 效 地 追踪 话题 的 后 续 发 
展 ,仍然 是 该 领域 有 待 深入 研究 的 课题 。 近 期 更 多 的 研究 集中 于 相关 报道 的 概率 分 布 和 话 
题 随 时 间 衰 减 趋势 的 估计 。 未 来 的 研究 重心 在 于 如 何 有 效 利 用 新 闻 语 料 的 时 间 特 征 ,并 分 
析 话 题 发 展 在 时 间 轴 上 的 分 布 。 
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5.4.3 话题 检测 


1. 在 线 话 题 检测 

在 线 话题 检测 (On-line Topic Detection,OTD) 的 主要 任务 是 检测 新 话题 并 收集 后 续 相 
关 报 道 。 通 常 ,OTD 系统 的 检测 原理 集中 于 相关 报道 的 聚 类 算法 , 即 在 线 监 视 后 续 的 报道 
数据 流 , 如 果 截 获 与 之 前 聚 类 得 到 的 话题 不 相关 的 报道 , 则 检测 到 一 个 新 话题 ,否则 将 该 报 
道 融合 于 相关 聚 类 。 对 于 OTD 的 早期 研究 主要 集中 在 聚 类 方法 的 选择 与 融合 上 。 例 如 ， 
参加 在 线 话题 检测 任务 的 所 有 单位 都 尝试 使 用 单 路 径 聚 类 算法 对 新 话题 进行 检测 。 此 外 ， 
CMU 同时 尝试 采用 凝聚 层次 聚 类 算法 进行 检测 ,但 是 取得 的 效果 略 差 于 单 路 径 聚 类 。 而 
Papka 则 对 比 了 不 同 聚 类 算法 在 OTD 中 的 效果 ,并 尝试 融合 各 自 的 优点 解决 OTD 问题 。 

2. 新 事件 检测 

正如 话题 检测 与 跟踪 研究 体系 中 所 提 到 的 ,FSD(First Topic Detection) 任 务 忽视 了 话 
题 出 现 的 跳跃 性 ,从 而 使 检测 到 的 新 话题 经 常 是 某 些 已 知 话题 在 不 同时 期 出 现 的 相关 事件 。 
因此 ,新 事件 检测 (New Event Detection, NED) 逐 渐 成 为 辅助 话题 检测 (TD) 的 重要 组 成 部 
分 。NED 与 首次 报道 检测 (First Topic Detection) 任 务 很 相似 ,唯一 的 区 别 在 于 前 者 提交 的 
最 新 事件 可 能 相关 于 历史 上 的 某 一 话题 ,后 者 必须 输出 话题 最 早 的 相关 报道 。NED 中 的 主 
流 方法 来 自 James Allan 和 Yiming Yang, 他 们 通过 建立 一 个 在 线 识 别 系统 (OL-SYS) 来 检 
验 报道 流 中 新 出 现 的 事件 。 其 中 ,陆续 进入 OL-SYS 系统 的 报道 需要 与 每 个 已 知 的 事件 模 
型 计算 相关 度 ,并 根据 先 验 阔 值 裁决 报道 是 否 为 新 事件 的 首次 报道 ,如 果 条 件 成 立 , 则 根据 
该 报道 建立 新 的 事件 模型 ,否则 将 其 嵌入 已 知事 件 模型 。 后 期 NED 的 相关 研究 以 这 种 统 
计 方 法 为 框架 ,涉及 两 个 方面 的 改进 , 即 建立 更 好 的 文本 表示 形式 和 更 充分 利用 新 闻 语 料 的 
时 间 特 征 。 

传统 的 NED 研究 采用 基于 统计 原理 的 文本 表示 形式 ,其 中 最 常用 的 表示 方法 是 向 量 
空间 模型 (VSM) ,事件 模型 与 报道 的 相似 度 计 算 则 相应 地 采用 余弦 夹 角 和 Hellinger 距离 
公式 。 统 计 模 型 的 缺陷 之 一 在 于 事件 空间 中 的 噪声 信息 对 新 事件 检测 造成 的 负面 影响 。 基 
于 这 一 问题 ,Yiming Yang 采用 分 类 技术 将 先 验 的 报道 划分 为 不 同类 别 ,区 别 于 将 类 别 中 的 
所 有 相关 报道 作为 事件 描述 ,Yiming Yang 只 选择 每 个 类 别 中 最 优 的 相关 报道 描述 事件 模 
型 ,基于 这 种 方法 的 NED 系统 在 性 能 上 获得 了 显著 的 提高 。 

统计 模型 的 最 大 缺陷 在 于 无 法 有 效 区 分 同一 话题 下 的 不 同事 件 。 前 文 曾 经 提 到 ,话题 
经 常 被 不 同事 件 触 发 而 重复 出 现 , 因 此 话题 描述 的 是 所 有 相似 事件 具备 的 共性 ,而 事件 之 间 
的 区 别 则 集中 于 时 间 、 地 点 和 人 物 等 实体 之 间 的 异同 。 仍 然 以 "恐怖 袭击 ”话题 为 例 , 其 包括 
2013 年 美国 波士顿 马拉松 爆炸 事件 .2015 年 巴黎 慌 怖 绪 击 事件 和 2016 年 法 国 尼 斯 忍 怖 事 
件 等 。 从 内 容 上 分 析 , 这 些 事件 的 相关 报道 中 都 会 频繁 出 现 “ 铠 怖 分 子 “ 自 杀 式 “袭击 ”“ 损 
和 毁 ” 和 "死亡 ”等 特征 ,并 且 这 些 特征 在 报道 中 出 现 的 频率 相对 最 频繁 。 因 此 ,根据 传统 基于 
统计 的 策略 ,这 些 特 征 往 往 构 成 事件 模型 的 主体 ,从 而 无 法 有 效 区 分 同一 话题 框架 下 的 不 同 
事件 。 与 此 不 同 的 是 ,以 命名 实体 为 主 的 特征 集合 ,如 “美国 “法 国 ” 和 “尼斯 "等 ,对 于 不 同 
事件 的 区 分 贡献 度 更 高 。 由 此 ,Kumaran James Allan、Yiming Yang 和 Lam 等 学 者 使 用 自 
然 语言 处 理 C(NLP) 技 术 辅助 统计 策略 解决 NED 问题 。 其 中 最 常用 的 NLP 技术 是 命名 实 
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体 (Named Entities,NE) 识 别 。 例 如 Kumaran 以 Yiming Yang 的 分 类 方法 为 统计 框架 ,将 
报道 描述 成 3 种 向 量 空间 ,分 别 为 全 集 特征 向 量 、 仅 包含 NE 的 特征 向 量 和 排除 NE 的 特征 
向 量 。 最 终 Kumaran 对 比 了 3 种 向 量 空间 模型 对 新 事件 检测 的 影响 ,并 验证 了 NE 能 极 大 
地 促进 事件 之 间 的 区 分 。 

NED 研究 应 用 时 间 特 征 的 方式 有 两 种 : 一 种 是 基于 文档 输入 的 时 间 顺 序 , 采 用 KNN 
分 类 技术 ; 另 一 种 是 采用 时 间 为 参数 的 衰减 函数 改进 基于 内 容 的 相关 度 计算 方 法 。 这 些 研 
究 在 一 定 程度 上 提高 了 NED 系统 的 性 能 。 因 此 ,NED 未 来 的 研究 趋势 将 以 区 分 话题 与 事 
件 在 时 间 轴 上 的 概率 分 布 为 主线 ,并 辅 以 NLP 与 统计 策略 相 结 合 的 事件 与 报道 描述 方法 。 

3. 事件 回顾 检测 

事件 回顾 检测 (Retrospective News Event Detection, RED) 的 主要 任务 是 回顾 过 去 所 
有 发 生 过 的 新 闻 报 道 , 并 从 中 检测 出 未 被 识别 到 的 相关 新 闻 事件 。 对 于 RED 研究 方向 的 理 
解 必须 涉及 事件 与 话题 的 定义 。 前 文 曾经 提 到 事件 是 发 生 在 特定 时 间 和 地 点 的 事情 ,而 话 
题 则 不 仅 包 含 作 为 种 子 的 事件 或 活动 ,同时 也 包含 与 其 直接 相关 的 事件 与 活动 。 因 此 ， 
RED 的 任务 实际 上 是 辅助 话题 检测 系统 回顾 整个 新 闻 语 料 , 从 中 检测 相关 于 某 一 话题 却 并 
未 被 识别 到 的 一 类 新 闻 事 件 。RED 研究 的 必要 性 来 源 于 话题 波动 出 现 的 特性 。 例 如 CNN 
关于 "圣诞 前 夜 ”的 话题 在 每 年 的 圣诞 前 夕 都 会 成 为 新 闻 与 广播 最 关心 的 事件 。 因 此 ,同一 
话题 跳跃 式 地 出 现 于 不 同时 间 ,并 且 每 次 出 现 都 伴随 着 大 量 相关 报道 。 基 于 新 闻 语 料 的 这 
种 特性 ,话题 检测 系统 往往 只 能 识别 出 局 限于 一 个 时 期 的 事件 ,而 构成 话题 的 全 部 事件 并 没 
有 有 机 地 结合 起 来 ,而 是 独立 地 作为 一 个 话题 被 误 检 。RED 研究 就 是 面向 话题 检测 系统 的 
这 种 缺陷 提出 的 。 

首次 提出 RED 研究 并 给 予定 义 的 学 者 是 Yiming Yang。 其 采用 凝聚 式 聚 类 算法 与 平 
均 聚 类 算法 相 结合 的 策略 ,将 近似 于 同一 话题 模型 的 相关 事件 综合 在 一 起 作为 话题 检测 的 
结果 ,从 而 使 TD 系统 具备 了 回顾 相关 事件 的 能 力 。 此 外 ,Li 采用 基于 内 容 和 时 间 的 联合 
概率 模型 构造 话题 空间 ,从 而 有 效 识别 话题 在 不 同 历史 时 期 涉及 的 相关 事件 。 虽 然 独立 于 
RED 方向 的 相关 研究 较 少 ,但 由 于 RED 与 NED 中 都 涉及 未 知事 件 的 识别 与 发 现 ,因此 许 
多 学 者 尝试 使 用 NED 中 的 相关 研究 来 处 理 RED 问题 。 

4. 层次 话题 检测 

TDT 2004 定义 了 一 项 新 的 话题 检测 任务 : 层次 话题 检测 (Hierarchical Topic 
Detection,HTD)。HTD 是 面向 话题 检测 中 两 种 不 恰当 的 假设 提出 的 ,其 中 一 个 假设 是 所 
有 报道 与 相关 话题 的 近似 程度 都 在 一 个 层次 上 ,而 另 一 个 假设 是 每 篇 报道 只 可 能 相关 于 一 
个 话题 。 实 际 上 ,报道 的 主题 与 话题 的 相关 程度 往往 分 布 于 不 同 层次 ,例如 “最 高 法 院 发 布 
规定 明确 P2P 网 贷 平台 责任 ”和 *“ 陆 金 锁 完成 4. 85 亿美 元 融资 ”两 篇 报道 ,虽然 它们 都 相关 
于 同一 话题 “2015 中 国 十 大 金融 事件 ”, 但 是 主题 侧重 点 的 差异 造成 它们 与 话题 的 对 应 程度 
处 于 不 同 层次 。 此 外 这 两 篇 报道 都 可 以 分 别 划 分 到 *P2P 网 贷 ” 类 和 “融资 "类 的 话题 模型 当 
中 ,因此 报道 不 总 是 仅仅 相关 于 一 个 话题 ,往往 不 同 话题 的 相关 报道 存在 交集 。HTD 通常 
可 以 采用 基于 一 个 根 节点 的 非 循环 有 向 图 (Directed Acyclic Graph,DAG) 描 述 话题 包 含 的 
层次 结构 。 其 中 , 根 节 点 抽象 地 代表 所 有 话题 , 沿 有 向 图 方向 延伸 的 子 节点 则 描述 比 父 节 点 
更 具体 的 一 类 话题 。 因 此 ,HTD 的 主要 任务 是 检测 经 过 聚合 得 到 的 DAG 体系 中 每 个 话题 
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的 聚 类 效果 ,以 及 根 节点 与 该 话题 之 间 路 径 的 复杂 度 。 映 射 为 实际 应 用 则 是 检验 HTD 系 
统 是 否 能 够 辅助 用 户 通过 最 便捷 的 查询 获得 最 优 的 一 类 报道 。 

一 种 解决 HTD 的 方法 是 凝聚 层次 聚 类 算法 (Hierarchical AgglomerativeClustering， 
HAC) 。 其 核心 思想 是 计算 当前 聚 类 集合 中 每 对 聚 类 的 相关 度 , 将 满足 阔 值 条 件 的 一 对 聚 
类 融合 成 新 的 聚 类 ,通过 反复 近代 这 一 过 程 ,系统 最 终 把 话题 模型 构造 成 具有 层次 关系 的 
DAG。HAC 的 一 个 重要 缺陷 是 时 间 和 空间 复杂 度 过 高 。 对 HAC 的 一 种 改进 方案 是 混合 
聚 类 算法 。HAC 的 另 一 种 改进 来 自 TNO 的 增 量 式 层次 聚 类 算法 ,其 首先 随机 抽取 小 规模 
样本 ,通过 层次 聚 类 构造 初期 的 DAG 体系 ,然后 将 不 对 称 的 聚 类 结构 通过 二 次 分 支 进行 优 
化 ,最 后 将 其 余 报道 根据 相关 度 大 小 融合 于 DAG 体系 ,其 中 相关 度 大 于 特定 阔 值 的 报道 被 
嵌入 DAG 中 已 有 的 话题 ,而 相关 度 小 于 特定 阔 值 的 报道 则 确定 一 个 新 的 话题 结构 。TNO 
的 增 量 式 策略 在 不 损失 聚 类 性 能 的 同时 降低 了 由 根 节点 检测 到 话题 的 复杂 度 。 


5.4.4 ” 跨 语言 话题 检测 与 跟踪 


话题 检测 与 跟踪 研究 面 对 的 信息 是 包含 多 种 语言 的 新 闻 报 道 。 无 论 是 基于 语 料 本 身 的 
语言 多 样 性 ,还 是 面向 实际 应 用 的 需要 ,话题 检测 与 跟踪 的 相关 课题 都 需要 涉及 跨 语言 领域 
的 相关 研究 。NIST 为 话题 检测 与 跟踪 的 评测 提供 了 机 器 翻译 (Machine Translation, MT) 
功能 ,基于 不 同 语言 的 语 料 可 以 通过 MT 相互 转化 ,从 而 由 源 语言 和 翻译 语言 共同 组 成 形 
式 统一 的 多 源 单一 语言 (Multiple Language-Specific, MLS) ,例如 英文 语 料 以 及 翻译 成 英文 
形式 的 中 文 语 料 。 因 此 大 多 数 参 加 TDT 评测 的 系统 都 是 基于 MLS 的 语言 环境 ,对 话题 与 
报道 模型 进行 描述 。 随 着 跨 语言 技术 的 发 展 ,包括 James Allan、Leek 和 Levow 在 内 的 一 些 
学 者 尝试 采用 不 同 的 翻译 策略 解决 话题 检测 与 跟踪 研究 中 的 跨 语言 问题 ,并 比较 了 机 器 翻 
译 和 其 他 翻译 技术 在 话题 检测 与 跟踪 中 的 效果 。 这 些 研究 的 主要 贡献 在 于 规范 化 了 基于 翻 
译 语 言 模型 的 相关 度 计算 ,从 而 削弱 错 译 对 系统 整体 性 能 的 影响 ,但 是 这 些 工作 仍然 是 一 种 
面向 单一 语言 符号 的 统计 策略 ,而 每 种 源 语言 本 身 具 备 的 结构 和 上 下 文 关系 ,以 及 特征 的 实 
际 内 涵 都 不 能 通过 翻译 的 手段 有 效 识别 。 

基于 上 述 问 题 ,目前 跨 语 言 话题 检测 与 跟踪 的 核心 问题 是 ,在 面向 多 语言 信息 时 如 何 使 
系统 能 够 在 不 脱离 任何 一 种 语言 的 本 源 环境 下 运行 。 针 对 这 一 需要 ,UMASS 的 Larkey 党 
试 采用 源 语言 模型 解决 跨 语言 问题 。 他 首先 建立 了 本 地 语言 假设 (Native Language 
Hypothesis, NLH) ,其 核心 内 容 是 : 组 成 两 篇 报道 内 容 的 特征 如 果 来 自 同一 种 源 语言 ,那么 
针对 这 两 篇 报道 之 间 的 任何 匹配 算法 ,都 只 能 在 基于 源 语言 的 情况 下 才能 获得 最 优 的 效果 ， 
而 不 是 经 过 翻译 的 其 他 语言 。 话 题 检测 与 跟踪 中 所 有 任务 都 涉及 的 一 个 基本 问题 是 信息 与 
信息 之 间 相 关 性 的 衡量 与 评价 。 因 此 .NLH 可 以 广泛 地 运用 于 话题 检测 与 跟踪 中 各 项 课 
题 的 跨 语言 研究 。 以 话题 跟踪 (TTT) 任 务 为 例 ,话题 只 有 很 少 的 训练 样本 作为 先 验 知识 ， 
并 且 这 些 训练 样本 都 采用 同一 种 语言 进行 描述 ,而 后 续 报 道 流 的 描述 语言 则 是 多 样 的 。 这 
就 给 基于 NLH 的 跨 语言 跟踪 造成 了 困难 ,因为 NLH 要 求 参 与 匹配 的 报道 对 象 , 必 须 采 用 
同一 种 源 语言 进行 描述 。Larkey 的 解决 办 法 是 在 系统 运行 初期 采用 机 器 翻译 将 报道 转换 
成 与 话题 模型 相同 的 语言 形式 ,如 果 检 测 到 相关 报道 并 且 该 报道 的 源 语 言 与 话题 模型 不 相 
同 , 则 将 该 报道 作为 话题 模型 新 的 训练 样本 并 采用 源 语 言 进行 描述 。 基 于 这 种 方法 ,话题 模 
型 的 结构 由 不 同 语言 形式 的 子 结构 共同 组 成 ,后 续 的 报道 流 可 以 在 满足 NLH 的 假设 下 与 
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话题 模型 进行 匹配 。 这 种 方法 的 缺陷 在 于 , 源 语言 结构 的 性 能 对 最 初 通过 机 器 翻译 得 到 的 
相关 报道 依赖 性 很 强 , 如 果 机 器 翻译 为 源 语 言 结 构 提 供 了 错误 的 训练 样本 ,那么 即使 后 期 的 
报道 流 可 以 在 本 源 特 征 环 境 下 进行 匹配 ,也 会 因为 话题 模型 的 偏差 而 被 误导 。 

此 外 ,Jin 采用 统计 策略 解决 跨 语言 问题 。 其 核心 思想 是 : 特征 空间 的 上 下 文本 身 蕴含 
了 源 语言 的 语义 信息 ,从 而 可 以 代替 MT 解决 话题 检测 与 跟踪 的 跨 语言 问题 。 该 方法 中 没 
有 涉及 文本 的 机 器 翻译 ,而 是 把 文本 描述 成 由 独立 特征 组 成 的 集合 ,而 这 些 特 征 都 在 一 种 语 
言 形式 下 进行 表示 。 基 于 这 种 语言 环境 ,Jin 采用 Bayesian 算法 匹配 话题 与 报道 的 相关 度 。 
Jin 的 方法 在 性 能 上 略 优 于 采用 MT 的 匹配 算法 。 其 原因 在 于 语言 的 多 义 性 往往 使 特征 无 
法 得 到 MT 的 正确 翻译 ,从 而 误导 文本 匹配 。 但 是 ,完全 基于 统计 策略 的 跨 语言 方法 仍然 
无 法 获得 更 大 的 提高 ,因为 特征 空间 的 上 下 文 虽然 缠 含 了 语义 信息 ,但 也 给 文本 的 描述 引入 
了 大 量 不 相关 的 噪声 。 因 此 ,Leek 采用 自然 语言 信息 与 统计 策略 相 结 合 的 方式 对 其 进行 改 
进 ,其 利用 特征 所 在 的 上 下 文 以 及 词典 知识 描述 特征 : 对 非 英文 文本 提取 出 现 频率 最 高 的 
若干 特征 ,通过 词典 查找 特征 对 应 的 英文 含义 ,并 在 此 基础 上 通过 英文 语 料 背 景 获取 特征 的 
上 下 文 及 其 权重 。 因 此 ,每 个 非 英文 特征 都 是 通过 它 在 词典 中 对 应 的 所 有 英文 特征 ,以 及 这 
些 英文 特征 在 英文 语 料 中 的 上 下 文 统 计 而 成 。 基 于 这 种 方法 ,话题 检测 与 跟踪 系统 的 跨 语 
言 性 能 获得 了 明显 的 提高 。 


5.5 话题 检测 与 跟踪 的 一 般 系 统 模型 


构造 一 个 实用 化 的 话题 检测 与 跟踪 系统 是 进行 话题 检测 与 跟踪 研究 的 主要 目的 之 一 ， 
也 是 检验 现 有 方法 优 劣 的 基础 。 从 参评 的 数量 来 看 ， 









































话题 模型 化 报道 模型 化 

话题 发 现 和 话题 跟踪 两 个 子 任务 最 受 关注 ,因此 我 们 E 呈 
介绍 的 实现 方法 也 以 这 两 个 任务 为 主 。 总 体 而 言 ,要 ER 到 
实现 话题 发 现 与 跟踪 功能 ,需要 解决 以 下 主要 问题 : 相似 度 计算 

(1) 话题 /报道 的 模型 化 ; 1 

(2) 话题 一 报道 相似 度 的 计算 ; 阔 值 比较 

(3) 聚 类 策略 ; 

(4) 分 类 策略 ( 靖 值 选择 策略 ) 。 

一 个 典型 的 话题 检测 与 跟踪 系统 的 流程 大 致 如 
图 5-2 所 示 ( 以 话题 跟踪 为 例 ) 。 5-2 话题 跟踪 系统 流程 


针对 以 上 问题 ,我 们 将 逐一 介绍 一 些 已 经 被 广泛 
采用 并 得 到 实际 评测 验证 的 方法 。 


5.5.1 话题 /报道 模型 


要 判断 某 个 报道 是 否 和 话题 相关 :首先 就 需要 解决 话题 和 报道 如 何 表示 便于 计算 和 比 
较 的 问题 ,也 就 是 话题 /报道 用 什么 模型 来 表示 。 目 前 常用 的 模型 主要 有 语言 模型 
(Language Model,LM) 和 向 量 空间 模型 (Vector Space Model,VSM)。 
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1. 语言 模型 
语言 模型 是 一 种 概率 模型 。 假 设 报道 中 出 现 的 词 6, 各 不 相关 , 则 某 则 报道 S 和 话题 C 
相关 的 概率 : 


PC | Sy = PO IO ~P(cI 2) (5-1) 


P(S) P(6,) 
其 中 P(C) 是 任何 一 则 新 报道 和 话题 C 相关 的 先 验 概率 ,P(6,|1C) 是 表示 词 6 在 某 话题 C 
中 的 生成 概率 。P(e,|C) 可 以 表示 成 一 个 两 态 的 混合 模型 ,如 图 5-3 所 示 。 


P(GE) Caamh 7 P(SIC) 


报道 中 的 词 一 一 一 
话题 


图 5-3 P(6, |C) 的 两 态 模型 


其 中 一 个 状态 是 词 在 该 话题 中 所 有 报道 的 分 布 , 另 一 个 状态 是 词 在 整个 语 料 中 的 分 布 。 
这 样 就 构成 了 一 个 词 的 生成 模型 。 计 算 此 模型 中 的 两 个 状态 采用 的 是 最 大 似 然 估计 
(ML) , 即 该 话题 的 所 有 报道 中 6, 出 现 的 次 数 除 以 该 话题 所 有 报道 包含 的 总 词 数 。 因 为 话 
题 语言 模型 很 稀 玻 ,这 里 必须 解决 未 见 词 的 0 概率 问题 ,通常 采用 线性 插值 法 把 背景 语言 
型 加 进去 : 

p61|C)=a. po, |O+(+a) :p60,) (5-2) 

一 般 英语 状态 分 布 和 话题 状态 分 布 采用 期 望 最 大 化 (EM) 算 法 估算 ,EM 算法 能 够 对 与 话题 
相关 的 词汇 赋予 较 高 概率 。 

2. 向量 空间 模型 

向 量 空间 模型 是 目前 最 简便 高 效 的 文本 表示 模型 之 一 。 其 基本 思想 是 : 给 定 一 自然 语 
言 文档 万 一 DGCna zjtz …3tvyzN) ,其 中 右 是 从 文档 忆 中 选 出 的 特征 项 ,rw 是 项 的 权 
重 ,1<iN。 为 了 简化 分 析 , 通 常 不 考虑 4 在 文档 中 的 先后 顺序 ,并 要 求 t; 互 异 ( 即 没有 重 
复 )。 这 时 可 以 把 4 ,ts，… ,ty 看 成 一 个 N 维 的 坐标 系 ,而 wi ,tos，… ,wn 为 相应 的 坐标 值 ， 
因而 DCwi ,ws，… ,wn) 被 看 成 是 NN 维 空间 中 的 一 个 向 量 ,而 两 个 文档 D; 和 D; 之 间 的 (内 
容 ) 相 关 程 度 常常 用 它们 之 间 的 相似 度 sim( Di ,D;) 来 度量 。 当 文档 被 表示 为 文档 空间 的 
向 量 时 ,就 可 以 借助 于 向 量 之 间 的 某 种 距离 来 表示 文档 间 的 相似 度 。 在 实际 的 参评 系统 中 ， 
基本 上 都 以 词 作为 文本 特征 项 。 特 征 ( 词 ) 加 权 采 用 的 是 IR 系统 中 常用 的 tj x idy 加 权 策 
略 。z7 是 词 在 文档 中 的 出 现 次 数 ,表示 词 对 描述 文档 的 重要 程度 ,idr 是 包含 词 的 文档 数 的 
倒数 ,用 于 削弱 那些 在 语 料 中 频繁 出 现 的 词 的 重要 程度 ,因为 它们 没有 什么 区 分 能 力 。 
某 些 系统 把 词 分 成 命名 实体 和 内 容 词 两 类 , 视 其 对 文档 表达 的 重要 度 的 不 同 赋予 不 同 的 
权重 。 

3. 中 心 向 量 模型 

中 心 向 量 模型 实际 是 向 量 空间 模型 的 一 种 变形 。 每 个 话题 用 一 个 中 心 向 量 表示 ,所 谓 
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中 心 向 量 , 就 是 在 此 类 中 所 有 报道 的 向 量 表示 的 平均 值 。 输 入 的 报道 和 每 个 话题 的 中 心 向 
量 相 比较 ,选择 最 相似 的 那个 话题 。 如 果 报 道 和 话题 的 相似 度 超过 一 个 阔 值 match, 则 认 
为 该 报道 * 过 旧 ”, 如 果 相 似 度 超过 第 2 个 阔 值 9certain, 则 把 新 报道 加 入 到 该 话题 中 并 调整 
类 的 中 心 向 量 。 如 果 相 似 度 不 超过 gmatch, 则 认为 该 报道 为 新 ,并 创建 一 个 新 的 话题 ,以 此 
报道 作为 其 中 心 向 量 。 

无 论 选 择 哪 种 模型 ,一 般 都 需要 进行 初始 化 , 即 消去 禁用 词 ,对 于 英语 而 言 , 还 需要 做 词 
根 还 原 的 工作 。 


5.5.2 相似 度 计算 


对 所 有 的 话题 C1 ,Cs,…,C, ,要 判断 某 一 则 报道 S 属于 哪 一 个 话题 ,就 需要 计算 报道 和 
各 个 话题 之 间 的 相似 程度 ,最 后 把 最 高 相似 度 和 效 值 进行 比较 ,对 于 语言 模型 而 言 , 就 是 寻 
找 & 满 足 
k=argmaxP(C; | S) (5-3) 
由 前 面 的 语言 模型 , 式 (5-3) 其 实 就 等 于 
k= argmax [[ 二 (5-4) 
在 实际 应 用 中 , 常 取 log 值 ,因此 ,相似 度 计算 公式 就 表示 为 


DCS,C) = bog To 


通常 用 语言 模型 算出 的 话题 与 话题 之 间 的 相似 度 不 可 比较 ,因为 单个 语言 模型 都 有 各 

自 不 同 的 概率 特征 。 例 如 ,有 的 话题 所 用 的 词 很 特殊 , 像 “ 霍 根 班 德 在 200 米 自由 泳 中 击败 

索 普 ”; 而 有 的 话题 用 词 就 很 普通 . 像 * 奥 巴 马 总 统 访问 中 国 "。 这 样 测试 文档 和 不 同 话题 之 

间 算 出 的 分 数 差异 很 大 ,不 能 用 单一 的 国 值 进行 比较 ,此 时 必须 进行 归 一 化 。 一 种 简单 方法 

是 用 分 数 除 以 文档 长 度 。 但 考虑 到 用 上 面 的 D(CS,C) 算 出 的 值 基本 上 是 一 组 独立 的 随机 离 

散 变量 值 ,如 果 值 足够 多 ,由 中 心 极限 理论 ,其 分 布 近似 为 高 斯 分 布 。 假 设 + 为 原来 的 概率 ， 

4 为 所 有 报道 对 某 话题 概率 的 平均 值 .o 是 这 些 概 率 的 标准 方差 , 则 新 的 分 值 可 以 归 一 化 为 

t= (rt—p)/o (5-6) 

向 量 空 间 模型 和 中 心 向 量 模型 通常 采用 余弦 相似 度 公式 来 计算 报道 一 话题 的 相似 度 ， 
即 求 两 者 的 内 积 , 则 相似 度 计算 公式 可 表示 为 


(5-5) 


> quad， 
(24)(>0) 
其 中 gi、d; 分 别 是 报道 和 话题 中 特征 项 的 权 值 。 余弦 相似 度 在 比较 两 个 长 文档 时 比较 有 
效 , 此 时 如 果 两 个 文档 的 向 量 维 数 不 进 行 任何 压缩 , 则 系统 性 能 最 佳 ; 当 其 中 一 个 维 数 降低 
时 ,性 能 就 会 下 降 。 因 为 本 身 已 进行 了 长 度 归 一 化 ,所 以 cosine 相似 度 不 依赖 于 特定 的 特 
征 加 权 方 法 。 
近来 有 些 系 统 开始 尝试 用 OKAPI 公式 来 计算 报道 一 话题 相似 度 ,其 形式 为 


of Nw,d 
OK (disdssc dc) 十 2 二 (5-8) 


D(S,C) = (5-7) 
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所 得 结果 表示 文档 和 文档 之 间 的 距离 ,其 中 di ,dz 是 两 个 文档 ,c 是 di,d: 中 较 早 出 现 的 那个 
文档 所 属 的 话题 。 是 词 ww 在 文档 i 中 调整 后 的 词 频 ,对 其 进行 归 一 化 处 理 ,使 得 > ys = 1 
独立 于 di 的 长 度 ,idf(w) 是 词 w 的 文档 频率 倒数 ,ns 是 包含 词 w 的 文档 数目 ,n 是 话题 ci 
中 文档 的 数目 ,nw,。 是 话题 c, 中 包含 词 w 的 文档 的 数目 ,4 是 控制 词 的 权 值 中 和 话题 相关 的 
那 部 分 “动态 权 值 ”的 可 调 参 数 。 
文档 和 话题 之 间 的 分 数 是 一 个 平均 值 : 

OK(d,c) =| C 3) OK(d,dis;e) (5-9) 
在 做 跟踪 训练 时 ,把 所 有 的 训练 报道 分 成 一 个 或 多 个 话题 ,然后 对 每 一 则 测试 报道 计算 它 跟 
某 个 话题 之 间 的 分 数 。 根 据 分 数 进行 两 个 阔 值 判断 。 如 果 分 数 超过 高 阔 值 , 则 把 该 报道 并 
入 话题 (因而 通过 xx 影响 了 将 来 的 分 数 )。 如 果 分 数 超过 了 低 冰 值 , 则 表示 此 报道 与 话题 相 
关 , 但 不 把 它 并 人 聚 类 。 


5.5.3 聚 类 分 析 策 略 


判断 某 个 新 报道 是 属于 已 有 话题 还 是 一 个 新 话题 ,往往 是 同时 进行 的 。 通 常 的 做 法 是 
把 新 报道 和 已 有 话题 进行 比较 ,如 果 相 似 度 高 于 某 个 阀 值 , 则 把 新 报道 归 人 相似 度 最 高 的 话 
题 中 ,如 果 对 所 有 话题 的 相似 度 都 低 于 阔 值 , 则 创建 一 个 新 话题 。 但 在 具体 实现 中 ,还 涉及 
选用 哪些 聚 类 、 分 类 方法 和 根据 反馈 进行 参数 调整 的 策略 。 

最 简单 的 方法 称 为 增 量 聚 类 算法 , 它 顺 序 处 理 报道 ,一 次 处 理 一 则 报道 ,对 每 一 则 报道 
执行 两 个 步 又。 

(1) 选择 。 选 出 和 报道 最 相似 的 聚 类 ; 

(2) 比较 阔 值 。 把 报道 和 闪 值 相 比 较 , 决 定 是 把 报道 分 到 聚 类 里 还 是 创建 一 个 新 的 
聚 类 。 

这 种 算法 非常 直观 ,便于 实现 ,但 它 的 缺点 也 很 明显 : 四 对 一 则 报道 只 能 进行 一 次 决 
策 , 因 此 早期 根据 很 少 的 信息 所 做 的 错误 判断 累计 到 后 面 可 能 相当 可 观 ; @ 随 着 报道 的 不 
断 处 理 , 计 算 开 销 会 越 来 越 大 。 对 语料库 处 理 的 后 期 ,系统 可 能 需要 把 每 则 报道 和 几 千 个 聚 
类 相 比 较 。 

针对 这 些 缺 点 稍 加 改进 ,就 形成 了 增 量 k-means 方法 , 它 在 当前 报道 窗口 中 进行 迭代 操 
作 , 每 一 次 迭代 都 要 进行 适当 的 改变 。 具 体 步 又 如 下 。 

(1) 使 用 增 量 聚 类 算法 处 理 当前 可 调整 窗口 中 的 全 部 报道 。 

(2) 把 可 调整 窗口 中 的 每 一 则 报道 和 旧 的 聚 类 进行 比较 ,判断 每 则 报道 是 要 合并 到 至 
类 中 去 还 是 用 作 新 聚 类 的 种 子 。 

(3) 根据 计算 结果 立即 更 新 所 有 的 聚 类 。 

(4) 重复 步骤 (2)、(3) ,直到 所 有 的 聚 类 不 再 变化 。 

(5) 查看 下 一 批 报道 ,转向 (1) 。 

KNN 算法 是 一 种 常用 的 文本 分 类 算法 , 它 应 用 在 话题 跟踪 上 也 有 比较 好 的 效果 ,其 基 
本 思想 是 把 新 报道 和 所 有 的 报道 逐一 比较 .计算 其 相似 度 , 然 后 选择 最 相近 的 有 个 “邻居 ” 
(报道 ) ,在 这 & 个 邻居 中 ,如 果 某 个 话题 包含 的 报道 数 最 多 , 则 把 新 报道 也 归 人 该 话题 ,并 对 
话题 模型 重新 训练 。 
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对 于 参数 调整 ,各 个 系统 也 采用 不 同 的 策略 。 有 些 系统 只 根据 正 例 (和 话题 相关 ) 对 话 
题 模 型 进行 调整 ,而 有 些 系统 则 兼顾 正 例 和 反例 。 对 以 向 量 空间 表示 的 话题 而 言 ,Rocchio 
方法 是 一 种 较为 有 效 的 参数 调整 方法 ,其 形式 为 
Ds Drs 

i¢C 


/ iEC 
wrx= awx 十 有 
nc n—nc 


其 中 wv. 是 调整 之 后 的 权 值 ,wi 是 原来 的 权 值 ,i 表示 已 处 理 的 报道 ,C 表示 某 个 话题 ,是 i 中 
的 特征 项 ,n 是 已 处 理 报道 的 总 数 ,nc 是 正 例 的 总 数 。 

除 此 之 外 ,有 些 研究 机 构 也 在 尝试 新 的 算法 ,例如 支持 向 量 机 (Support Vector 
Machine) .最 大 炉 (Maximum Entropy)、 文 档 扩 展 等 ,但 都 还 需要 在 评测 中 实际 验证 其 
效果 。 








(5-10) 


5.6 话题 检测 与 跟踪 的 效果 评价 


5.6.1 话题 检测 与 跟踪 使 用 的 语 料 


LDC 为 话题 检测 与 跟踪 方向 的 研究 提供 了 5 期 语 料 ,分 别 是 话题 检测 与 跟踪 预 研 语 
料 .TDT2.TDT3 TDT4 和 TDT5。 话题 检测 与 跟踪 语 料 是 选 自 大 量 新 闻 媒 体 的 多 语言 
闻 报 道 集合 。 其 中 ,TDT5 只 包含 文本 形式 的 新 闻 报道 ,而 其 他 语 料 同 时 包含 文本 和 广播 两 
种 形式 的 新 闻 报 道 。 本 小 节 简要 介绍 各 语 料 的 组 成 .描述 及 其 区 别 。 

1. 语 料 组 成 

话题 检测 与 跟踪 评测 最 早 使 用 的 语 料 是 话题 检测 与 跟踪 预 研 语 料 (TDT Pilot Corpus， 
TDT-Pilot)。TDT-Pilot 收集 了 1994 年 7 月 1 日 到 1995 年 6 月 30 日 之 间 约 16 000 篇 新 
闻 报 道 ,主要 来 自 路 透 社 新 闻 专 线 和 CNN 新 闻 广 播 的 翻录 文本 。TDT-Pilot 标注 过 程 没有 
涉及 话题 的 定义 ,而 是 由 标注 人 员 从 所 有 语 料 中 人 工 识别 涉及 各 种 领域 的 25 个 事件 作为 检 
测 与 跟踪 对 象 。TDT2 收集 了 1998 年 前 6 个 月 的 中 英文 两 种 语言 形式 的 新 闻 报 道 。 其 中 ， 
LDC 人 工 标注 了 200 个 英文 话题 和 20 个 中 文 话题 。TDT3 收集 了 1998 年 10 月 到 12 月 间 
中 文英 文 和 阿拉 伯 文 3 种 语言 的 新 闻 报 道 。 其 中 ,LDC 对 120 个 中 文 和 英文 话题 进行 了 
人 工 标 注 , 并 选择 部 分 话题 采用 阿拉 伯 文 进行 标注 。TDT4 收集 了 2000 年 10 月 到 2001 年 
1 月 间 英 文 、 中 文 和 阿拉 伯 文 3 种 语言 的 新 闻 报 道 。 其 中 ,LDC 分 别 采用 3 种 语言 对 80 个 
话题 进行 人 工 标 注 。TDT5 收集 了 2003 年 4 月 到 9 月 间 的 英文 .中 文 和 阿拉 伯 文 3 种 语言 
的 新 闻 报 道 。LDC 对 250 个 话题 进行 了 人 工 标 注 , 其 中 25% 的 话题 同时 具有 3 种 语言 的 表 
示 形 式 , 其 他 话题 则 以 相同 的 比例 均匀 地 分 配给 3 种 语言 分 别 进行 标注 。 此 外 ,TDT5 中 每 
种 语言 的 话题 来 自 该 语言 当地 媒体 的 报道 。 

LDC 根据 报道 与 话题 的 相关 性 对 所 有 语 料 进 行 标 注 。 其 区 别 在 于 TDT2 与 TDT3 采 
用 三 类 标注 形式 ,而 TDT4 与 TDT5 采用 两 种 标注 形式 。 前 者 使 用 YES、BRIEF 和 NO 作 
为 报道 与 话题 相关 程度 的 标识 。 当 报道 论述 的 内 容 与 话题 绝对 相关 时 标注 为 BRIEF ,而 报 
道 与 话题 相关 的 内 容 低 于 本 身 的 10%, 则 标注 为 BRIEF ,否则 标注 为 NO。TDT4 与 TDT5 
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只 采用 相关 YES 和 不 相关 NO 对 报道 与 话题 的 相关 性 进行 标注 。 其 中 ,相关 报道 不 仅 需要 
相关 于 话题 的 核心 内 容 , 同 时 需要 包含 话题 的 部 分 信息 。 但 是 ,报道 与 话题 相关 的 内 容 并 没 
有 TDT2 和 TDT3 中 要 求 的 长 短 之 分 .只 要 存在 相关 信息 都 被 标注 为 YES。 

2. 语 料 描述 方式 

TDT 语 料 包含 两 种 媒体 形式 的 数据 流 : 文本 和 广播 。 区 别 于 单一 表示 形式 的 文本 类 
新 闻 报 道 ,LDC 为 广播 类 新 闻 语 料 提供 了 三 种 信息 描述 方式 。 

(1) 数据 信号 的 音频 采集 ; 

(2) 对 音频 的 人 工 识别 与 记录 ; 

(3) 通过 自动 语音 识别 系统 (Automatic Speech Recognition ,ASR) 识 别 和 记录 音频 。 

此 外 ,广播 类 语 料 不 仅 包 含 新 闻 形式 的 报道 ,还 包含 部 分 非 新 闻 类 报道 。 其 中 关于 商业 
贸易 的 报道 以 及 目录 形式 的 体育 比分 和 财经 数据 都 属于 非 新 闻 类 语 料 。 因 此 ,LDC 为 广播 
类 语 料 额 外 提供 了 三 种 标注 形式 : 新 闻 报 道 (NEWS) 、 多 元 报道 (MISCELLANEOUS) 和 未 
转录 报道 (UNTRANSCRIBED)。 其 中 ,没有 经 过 识别 与 记录 的 广播 报道 被 标注 为 
UNTRANSCRIBED。 

如 前 文 所 述 ,话题 检测 与 跟踪 语 料 主要 包含 三 种 语言 形式 : 中 文 .英文 和 阿拉 伯 文 。 对 
于 中 文 和 阿拉 伯 文 ,LDC 提供 了 两 种 不 同 的 描述 方式 。 

(1) 本 地 语言 描述 形式 , 即 报道 采用 未 经 过 翻译 的 本 地 语言 。 其 中 包括 文本 形式 (如 新 
闻 专 线 ) 的 描述 ,也 包括 采用 人 工 或 ASR 对 本 地 广播 的 识别 与 翻录 ; 

(2) 采用 机 器 翻译 自动 地 将 中 文 或 阿拉 伯 文 报道 翻译 成 英文 形式 。 


5.6.2 话题 检测 与 跟踪 的 评测 体系 


NIST 为 话题 检测 与 跟踪 建立 了 完整 的 评测 体系 。 由 于 各 个 研究 方向 针对 的 问题 不 同 
以 及 历届 评测 语 料 的 标注 方案 存在 差异 ,因此 话题 检测 与 跟踪 不 同 任务 之 间 的 评测 方法 、 参 
数 以 及 步骤 不 尽 相 同 。 但 总 体 而 言 ,评测 标准 都 是 建立 在 检验 系统 漏 检 率 和 误 检 率 的 基础 
之 上 。 话 题 检测 与 跟踪 评测 公式 定义 如 下 : 
Cnpe = Cuiss Pviss Parget 十 CFA PFA Prom wreet (5-11) 
其 中 ,Cuws 和 CA 分 别 代表 漏 检 率 和 错 检 率 的 代价 系数 ; Pw: 和 Prs 分 别 是 系统 漏 检 和 错 检 
的 条 件 概 率 ; Pu 和 Pronwmwet 是 先 验 目标 概率 ( Poonwree 二 1 一 Pwreet); Cn 是 综合 了 系统 漏 检 
率 与 误 检 率 得 到 的 性 能 损耗 代价 。 检 验 话题 检测 与 跟踪 系统 性 能 时 ,评测 体系 可 以 根据 阔 
值 或 平滑 系数 的 变化 绘制 检测 错误 权衡 图 (Detection Error Tradeoff,DET)。 评 价 话题 检 
测 与 跟踪 系统 性 能 时 常 采用 规范 化 表示 .其 定义 如 下 : 
Cope 
min( Cue P wag 9 CrAP smssign) 
针对 话题 检测 与 跟踪 涉及 的 语 料 及 评测 体系 ,本 文 提 供 了 相应 资源 ,指南 及 工具 的 获取 
方法 和 地 址 ,其 主要 来 源 包括 美国 国家 标准 与 技术 研究 院 (NIST) 和 语言 数据 联盟 (LDC)。 
其 中 话题 检测 与 跟踪 语 料 可 通过 光盘 邮购 和 在 线 LTP 下 载 两 种 方式 获取 ,具体 地 址 如 表 5-1 
所 示 。 





(Cpet ) Nom (5-12) 
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表 5-1 评测 工具 、 指 南 及 语 料 获取 方式 


名 称 用 途 URL 联系 人 
DETware_v2. 1. tar. gz 





评测 工具 


gnu_detware. tar. Z http://www. nist. gov/speech. tools/index. htm 





TDT3eval_v2. 6 指南 





Ee http://www. nist. gov/speech/tests/tdt/tdt2000/ 
Dry Run Evaluation-2000 
dryun. htm jonathan. 








. http://www. nist. gov/speech/tests/tdt/tdt2001/ | fiscus @ 
Dry Run Evaluation-2001 
dryun. htm nist. gov 





索 引 列 
Dry Run Evaluation-2002 | 表 及 正 
确 答案 





http://www. nist. gov/speech/tests/tdt/tdt2002/ 


dryun. htm 








http://www. nist. gov/speech/tests/tdt/tdt2003/ 
Dry Run Evaluation-2003 
dryun. htm 








http:// .nist. gov/speech/tests/tdt/tdt2004/ 
Dry Run Evaluation-2004 i 
dryun. htm 





ldc @ ldc. 


LDCTDT2-TDT5 语 料 http://www. ldc. upenn. edu/Obtaning/ 
upenn. edu 











5.7 话题 检测 与 跟踪 的 发 展 趋势 


基于 概率 模型 以 及 自然 语言 处 理 技术 (Natural Language Processing, NLP) 的 信息 描 
述 与 匹配 方法 在 话题 检测 与 跟踪 中 得 到 广泛 应 用 : 前 者 利用 特征 的 概率 分 布 以 及 特征 之 间 
的 共 现 率 等 统计 信息 描述 文本 ,后 者 则 利用 特征 的 语言 学 信息 描述 文本 ,例如 词性 .词义 、 命 
名 实体 和 指 代 关系 等 。 话 题 检测 与 跟踪 采用 最 多 的 概率 模型 包括 向 量 空间 模型 (VSM) .请 
言 模型 (CLM) 和 相关 性 模型 (RM)。 概 率 模型 通过 分 析 特 征 在 信息 集中 的 概率 分 布 建立 话 
题 与 报道 的 描述 ,并 采用 机 器 学 习 (ML) 的 相应 策略 匹配 特征 空间 的 相关 性 。 这 种 方法 的 
缺陷 在 于 忽视 了 特征 自身 携带 的 语言 信息 ,同时 也 遗漏 了 短语 级 、 句 子 级 和 篇 章 级 的 结构 与 
层次 。 此 外 ,概率 模型 只 将 特征 出 现 的 频率 和 特征 之 间 的 共 现 率 作为 评价 权重 大 小 的 标准 ， 
但 自然 语言 中 的 指 代 关 系 , 一 词 多 义 和 名 词 短语 等 现象 却 并 不 支持 这 一 理论 。 随 着 话题 检 
测 与 跟踪 的 发 展 ,更 加 智能 化 的 自 适应 学 习 机 制 成 为 领域 内 的 研究 热点 ,这 就 对 话题 检测 与 
跟踪 系统 正确 理解 知识 提出 了 更 高 的 要 求 . 而 传统 的 基于 统计 策略 不 能 真实 地 描述 其 语义 
空间 ,因此 基于 NLP 技术 及 其 与 统计 学 原理 相 融 合 的 相应 研究 将 逐步 成 为 话题 检测 与 跟踪 
领域 中 的 重要 方向 。 

James Allan 是 最 早 使 用 NLP 技术 解决 话题 检测 与 跟踪 问题 的 学 者 之 一 。 其 采用 
VSM 描述 话题 和 报道 ,并 对 模型 中 的 命名 实体 赋予 更 高 的 权重 ,以 此 执行 话题 检测 与 跟踪 
中 的 新 事件 检测 (NED) 任 务 。 但 这 种 方法 并 没有 获得 性 能 上 的 提高 ,主要 原因 在 于 其 采用 
的 命名 实体 加 权 方 法 是 一 种 经 验 性 的 策略 ,而 没有 遵循 语言 学 的 原理 进行 估计 。 对 于 这 种 
方法 的 一 种 改进 来 自 Nallapati, 其 首先 将 特征 划分 到 不 同 的 语法 类 别 ,例如 词性 中 的 名 词 
类 和 动词 类 ,以 及 命名 实体 中 的 时 间 类 、 人 名 类 和 地 点 类 。 在 这 个 基础 上 采用 语言 模型 的 概 
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率 统计 方法 ,估计 特征 产生 于 不 同 语法 类 别 的 概率 ,并 以 此 标记 特征 的 权重 。 另 一 类 应 用 于 
话题 检测 与 跟踪 中 的 自然 语言 处 理 技术 是 语义 链 (Lexical Semantic Chaining,LSC) 。LSC 
是 基于 文本 结构 的 凝聚 假设 提出 的 , 即 构成 文本 的 特征 、 短 语 和 句子 不 是 孤立 存在 的 ,而 是 
趋向 于 围绕 一 个 中 心 内 涵 进行 组 织 与 论述 。LSC 的 含义 是 一 组 语义 上 具有 继承 性 的 相关 
特征 。 通 常 ,来 自 一 篇 文本 中 的 语义 链 不 仅 能 为 特征 塑造 相关 的 上 下 文 , 同 时 可 以 更 好 地 描 
述 文本 内 涵 的 继承 性 。 最 初 , Hasan 使 用 LSC 描述 词汇 的 凝聚 性 ,并 基于 这 种 模型 评价 文 
本 之 间 的 相关 程度 。Morris 和 Hirst 随后 设计 了 基于 词汇 资源 自动 构造 LSC 的 算法 。 近 
期 使 用 LSC 解决 话题 检测 与 跟踪 问题 的 研究 主要 来 自 Stokes 和 Hatch, 其 结合 使 用 词典 信 
息 (WordNet) 和 文本 的 上 下 文 信息 同时 构造 LSC, 并 基于 LSC 的 文本 描述 形式 采用 单 路 径 
聚 类 算法 解决 新 事件 检测 (NED) 问 题 。 语 义 链 的 使 用 从 语言 学 的 另 一 种 角度 解决 文本 的 
描述 问题 , 即 语 义 。 通 常 ,LSC 有 两 个 优点 : 一 个 是 语义 链 具 备 的 上 下 文 信息 和 词典 结构 信 
息 可 以 有 效 削弱 特征 的 歧义 性 ; 另 一 个 优点 在 于 对 特征 的 扩展 作用 ,即使 原始 文本 之 间 特 
征 的 词 形 锭 异 , 但 词典 提供 的 扩展 信息 仍然 可 以 有 效 地 将 其 关联 在 一 起 。 目 前 ,NLP 技术 
在 话题 检测 与 跟踪 领域 的 应 用 已 经 逐步 开展 ,并 在 一 定 程度 上 弥补 了 统计 学 原理 在 知识 理 
解 问题 上 的 不 足 。 但 对 于 该 领域 的 某 些 研究 课题 ,NLP 技术 却 无 法 取代 概率 统计 策略 发 挥 
决定 性 的 作用 ,例如 新 闻 报 道 的 时 序 性 研究 。 

利用 时 序 特征 解决 面向 新 闻 报道 的 检测 和 跟踪 任务 也 是 话题 检测 与 跟踪 领域 的 重要 研 
究 趋 势 。 最 早 分 析 时 间 因 素 对 话 检测 影响 的 研究 来 自 于 CMU 的 Yiming Yang 和 UMASS 
的 James Allan, 他 们 同时 提出 了 一 种 基于 时 空 顺序 的 假设 , 即 相 对 于 产生 时 间 较 远 的 报道 ， 
产生 时 间接 近 的 报道 论述 同一 个 话题 的 可 能 性 更 大 。 其 中 ,CMU 采用 SMART 系统 对 报 
道 和 话题 进行 描述 ,并 通过 聚 类 解决 话题 检测 问题 。 与 传统 TD 技术 的 不 同 之 处 在 于 ,经 过 
改进 的 SMART 系统 融合 了 时 间 因 素 对 聚 类 的 影响 ,其 聚 类 相似 性 是 结合 基于 特征 相似 度 
和 报道 时 空 举例 综合 得 到 的 。UMASS 则 将 时 间 因 素 应 用 于 聚 类 阔 值 的 估计 ,其 中 闽 值 被 
设计 成 以 时 间 为 参数 的 函数 , 闷 值 可 以 随时 间 的 变化 连续 动态 地 调整 ,从 而 适应 话题 被 报道 
的 概率 随时 间 逐 渐 衰 减 的 趋势 。 此 外 .Papka 改进 了 UMASS 的 OTD 算法 ,同时 将 时 间 因 
素 嵌 入 话题 跟踪 任务 ,其 在 TDT2 语 料 中 进一步 验证 了 时 空 顺序 假设 对 话题 检测 与 跟踪 的 
影响 。 而 Paula Hatch 则 融合 了 CMU 和 UMASS 的 算法 ,其 话题 检测 系统 选择 距离 当前 
报道 最 近 并 且 刚 刚 参 与 过 更 新 的 个 聚 类 进行 比较 。 当 报道 与 聚 类 的 相关 度 满 足 阔 值 要 求 
时 ,对 该 聚 类 进行 更 新 。 同 时 将 当前 报道 与 更 新 后 的 聚 类 质心 进行 相关 度 计算 ,并 乘 以 衰减 
速度 因子 ,作为 该 话题 新 的 聚 类 阔 值 。 总 之 ,时 间 信 息 是 新 闻 预 料 的 特色 ,依靠 时 间 信 息 追 
踪 话题 的 发 展 趋势 能 够 辅助 TDT 相关 技术 获得 更 好 的 效果 。 因 此 ,未 来 话题 检测 与 跟踪 
的 研究 方向 中 ,一 方面 ,概率 统计 和 自然 语言 的 融合 与 相互 辅助 对 话题 理解 和 报道 内 容 分 析 
将 发 挥 更 重要 的 作用 ,而 另 一 方面 ,诸如 基于 概率 统计 的 报道 流 时 序 分 析 等 具备 新 闻 语 料 特 
色 的 课题 将 成 为 该 领域 新 的 研究 热点 。 


5.8 本 章 小 结 


话题 检测 与 跟踪 是 网 络 信息 内 容 安 全 中 一 个 重要 的 研究 课题 。 当 前 的 研究 主要 还 是 基 
于 传统 的 统计 方法 ,这 些 方法 在 文本 分 类 、 信 息 检 索 、 信 息 过 滤 等 领域 已 经 得 到 广泛 的 应 用 。 
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本 章 简要 介绍 话题 检测 与 跟踪 技术 的 定义 及 特点 ,对 话题 检测 与 跟踪 的 任务 进行 划分 ， 
深入 分 析 话题 检测 与 跟踪 的 研究 体系 ,在 此 基础 上 ,详细 介绍 话题 检测 和 跟踪 的 一 般 系 统 模 
型 ,并 通过 分 析 目 前 话题 检测 与 跟踪 领域 的 研究 现状 展望 未 来 的 发 展 趋势 。 

话题 检测 和 跟踪 技术 的 发 展 和 实际 应 用 息息相关 , 它 能 够 弥补 信息 检索 技术 的 一 些 不 
足 ,在 国家 信息 内 容 安全 ,企业 市 场 调查 、 个 人 信息 定制 等 方面 都 存在 着 实际 需求 。 随 着 现 
有 系统 性 能 的 不 断 提高 ,话题 检测 和 跟踪 技术 在 各 个 领域 必 将 得 到 越 来 越 广泛 地 应 用 。 


习 题 


. 话题 检测 与 跟踪 可 以 分 为 哪些 子 任务 ? 

. 简要 描述 话题 检测 与 跟踪 的 研究 体系 。 

. 话题 检测 与 跟踪 技术 中 ,如 何 进行 相似 度 计算 ? 

. 话题 检测 与 跟踪 的 模型 中 ,进行 聚 类 分 类 时 策略 原则 一 般 是 什么 ? 
.如 何 评 价 话题 检测 与 跟踪 的 效果 ?常用 评测 体系 有 哪些 ? 


am 上 oo 
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6.1 社会 网 络 分 析 概述 


6.1.1 社会 网 络 的 定义 


在 互联 网 这 个 虚拟 社会 中 , 同 现实 社会 一 样 , 也 是 各 种 社会 关系 的 总 和 ,这 些 社会 关系 
组 成 了 一 个 虚拟 社会 网 络 。 利 用 技术 手段 ,分 析 挖 掘 网 络 中 各 个 社会 网 络 的 关系 ,对 于 保障 
网 络 及 现实 社会 的 安全 具有 重要 意义 。 接 下 来 首先 给 出 社会 网 络 在 本 书 中 的 定义 。 

社会 网 络 指 的 是 社会 行动 者 (Social Actor) 及 其 间 关 系 的 集合 。 换 名 话说 ,一 个 社会 网 
络 是 由 多 个 点 (社会 行动 者 ) 和 各 点 之 间 的 连 线 ( 行 动 者 之 间 的 关系 ) 组 成 的 集合 。 用 点 和 线 
来 表达 网 络 ,这 是 社会 网 络 的 形式 化 界定 。 

社会 网 络 这 个 概念 强调 每 个 行动 者 都 与 其 他 行动 者 有 或 多 或 少 的 关系 。 社 会 网 络 分 析 
者 建立 这 些 关 系 的 模型 ,力图 描述 群体 关系 的 结构 ,研究 这 种 结构 对 群体 功能 或 者 群体 内 部 
个 体 的 影响 。 

下 面 对 社 会 网 络 这 个 概念 进一步 说 明 。 

节点 : 社会 网 络 中 的 节点 (Nodes) 是 各 个 社会 行动 者 , 边 是 行动 者 之 间 的 各 种 社会 关 
系 。 具体 地 说 ,在 社会 网 络 研 究 领 域 ,任何 一 个 社会 单位 或 者 社会 实体 之 间 都 可 以 看 成 是 点 
或 者 行动 者 (Actor)。 例 如 ,行动 者 可 以 是 个 体 或 集体 性 的 社会 单位 ,也 可 以 是 一 个 教研 室 、 
系 、 学 院 、 学 校 ,更 可 以 是 一 个 村 落 、 组 织 、 社 区 、 超 市 .国家 等 ,当然 也 包括 网 上 每 一 个 虚拟 社 
群 的 成 员 或 社 群 本 身 。 

关系 : 每 个 行动 者 是 通过 各 种 关系 联系 在 一 起 的 。 在 社会 网 络 分 析 中 ,一 些 得 到 广泛 
研究 的 关系 如 下 。 

(1) 个 人 之 间 的 评价 关系 : 喜欢 .尊重 等 

(2) 物质 资本 的 传递 : 商业 往来 .物资 交流 ; 

(3) 非 物质 资源 的 转换 关系 : 行动 者 之 间 的 交往 、 信 息 的 交换 ; 

(4) 隶属 关系 : 属于 某 一 个 组 织 ; 

(5) 行为 上 的 互动 关系 : 行动 者 之 间 的 自然 交往 ,如 谈话 、 拜 访 等 

(6) 正式 关系 (权威 关系 ): 正式 角色 也 是 有 关系 性 的 ,如 教师 /学 生 、 医 生 / 病 人 、 老 板 / 
职员 关系 等 ; 

(7) 生物 意义 上 的 关系 : 遗传 关系 、 亲 属 关系 以 及 继承 关系 等 。 

社会 网 络 分 析 者 还 重点 关注 行动 者 之 间 的 “多 元 关系 ”, 也 就 是 联系 。 例 如 ,两 个 学 生 之 
间 可 能 同时 存在 同学 关系 友谊 关系 .恋爱 关系 等 。 按 联系 的 强 弱 可 分 为 强 联 系 和 弱 联系 。 
行动 者 与 其 较为 紧密 、 经 常 联络 的 社会 关系 之 间 形 成 的 是 强 联系 ; 与 之 相对 应 ,个 人 与 其 不 
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紧密 联络 或 是 间接 联络 的 社会 关系 之 间 形 成 的 是 弱 联 系 。 但 在 传递 资源 、 信 息 、 知 识 的 过 程 
中 ,Granovetter 认为 弱 联 系 更 具 重 要 性 。 强 联系 之 间 由 于 彼此 很 了 解 ,知识 结构 、 经 验 、 背 
景 等 相似 之 处 颇 多 ,并 不 能 带 来 更 进一步 的 新 的 资源 信息 和 知识 ,所 增加 的 部 分 大 多 是 元 余 
的 ; 而 弱 联 系 所 提供 的 资源 信息 或 知识 会 比较 差异 化 ,如 果 在 弱 联 系 之 间 搭 起 某 种 形式 的 
桥梁 ,就 可 以 传递 多 种 多 样 的 资源 信息 和 知识 。 网 络 虚拟 社 群 就 起 到 了 这 样 的 桥梁 作用 。 


6.1.2 社会 网 络 分 析 的 含义 及 主要 内 容 


1. 社会 网 络 分 析 的 含义 

社会 网 络 分 析 主 要 是 研究 社会 实体 的 关系 连接 以 及 这 些 连接 关系 的 模式 ,结构 和 功能 。 
社会 网 络 分 析 同 时 也 可 用 来 探讨 社 群 众 个 体 之 间 的 关系 以 及 由 个 体 关 系 所 形成 的 结构 及 其 
内 涵 。 换 句 话 说 ,社会 网 络 分 析 的 主要 目标 是 从 社会 网 络 的 潜在 结构 (Latent Structure) 中 
分 析 发 掘 其 中 次 团体 之 间 的 关系 动态 。 社 会 网 络 分 析 研 究 行动 者 彼此 之 间 的 关系 ,而 通过 
对 行动 者 之 间 关 系 与 联系 的 连接 情况 进行 研究 与 分 析 , 将 能 显露 出 行动 者 的 社会 网 络 信息 ， 
甚至 进一步 观察 并 了 解 行动 者 的 社会 网 络 特征 。 而 通过 社会 网 络 ,除了 能 显示 个 人 社会 网 
络 特征 外 ,还 能 够 了 解 许多 社会 现象 ,因为 社会 网 络 在 组 织 中 扮演 着 相当 重要 的 无 形 角色 ， 
当 人 们 在 解决 问题 或 是 寻找 合作 伙伴 时 ,通常 都 是 依循 所 拥有 的 社会 网 络 来 寻找 最 可 能 帮 
忙 协助 的 对 象 。 

社会 网 络 分 析 是 社会 科学 中 的 一 个 独特 视角 , 它 是 建立 在 如 下 假设 基础 上 的 : 在 互动 
的 单位 之 间 存 在 的 关系 非常 重要 。 社 会 网 络 理论 .模型 以 及 应 用 都 是 建立 在 数据 基础 上 的 ， 
关系 是 网 络 分 析 理 论 的 基础 。 

除了 利用 关系 概念 之 外 ,我 们 认为 ,以 下 几 个 “元 认识 论 ” 观 点 很 重要 。 

(1) 行动 者 以 及 行动 是 相互 依赖 的 ,而 不 是 独立 的 、 自 主 性 的 单位 ; 

(2) 行动 者 之 间 的 关系 是 资源 (物质 的 或 者 非 物质 的 ) 传 递 或 者 流动 的 "渠道 ”; 

(3) 个 体 网 络 模型 认为 ,网 络 结构 环境 可 以 为 个 体 的 行动 提供 机 会 ,也 可 能 限制 其 
行动 ; 

(4) 网 络 模型 把 结构 (社会 结构 、 经 济 结构 等 ) 概 念 化 为 各 个 行动 者 之 间 的 关系 模型 。 

2. 社会 网 络 分 析 的 主要 内 容 

社会 网 络 分 析 被 应 用 于 描述 和 测量 行动 者 之 间 的 关系 或 者 通过 这 些 关 系 流 动 的 各 种 有 
形 或 无 形 的 东西 ,如 信息 .资源 等 。 自 人 类 学 家 Barnes 首次 使 用 “社会 网 络 ” 的 概念 来 分 析 
挪威 某 渔 村 的 社会 结构 以 来 ,社会 网 络 分 析 被 视 为 是 研究 社会 结构 的 最 简单 明朗、 最 具有 说 
服 力 的 研究 视角 之 一 。20 世纪 70 年 代 以 来 ,除了 纯粹 方法 论 及 方法 本 身 的 讨论 外 ,社会 网 
络 分 析 还 探讨 了 小 群体 (Clique) 、 同 为 群 (Block) .社会 圈 (Social Circle) 以 及 组 织 内 部 的 网 
络 , 市 场 网络 等 特殊 的 网 络 形式 。 这 些 讨论 逐渐 形成 了 网 络 分 析 的 主要 内 容 。 

根据 分 析 的 着 眼 点 不 同 ,社会 网 络 分 析 可 以 分 为 两 种 基本 视角 : 关系 取向 (Relation 
Approach) 和 位 置 取向 (Positional Approach) 。 关 系 取 向 关注 行动 者 之 间 的 社会 黏着 关系 ， 
通过 社会 连接 (Social Connectivity) 本 身 ( 如 密度 、 强 度 、 对 称 性 、 规 模 等 ) 来 说 明 特 定 的 行为 
和 过 程 。 按 照 这 种 观点 ,那些 强 联 系 的 且 相 对 孤立 的 社会 网 络 可 以 促进 机 体 认同 和 亚 文化 
的 形成 。 
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与 此 同时 ,位 置 取向 则 关注 存在 于 行动 者 之 间 且 在 结构 上 处 于 相等 地 位 的 社会 关系 的 
模式 化 (Patterning)。 它 讨论 的 是 两 个 或 两 个 以 上 的 行动 者 和 第 三 方 之 间 的 关系 所 折射 出 
来 的 社会 结构 ,强调 用 “结构 等 效 ”(Structural Equivalence) 来 理解 人 类 行为 。 

1) 关系 取向 中 的 主要 分 析 内 容 
日 于 社会 网 络 分 析 是 以 网 络 中 的 关系 或 通过 关系 流动 的 信息 、 资 源 等 为 主要 研究 对 象 
的 ,这 种 取向 中 的 主要 分 析 内 容 大 多 集中 在 网 络 *“ 关 系 ” 上 也 就 不 足 为 奇 了 。 几 项 重要 研究 
内 容 如 下 。 

(1) 规模 (Range)。 社 会 网 络 中 的 行动 者 都 与 其 他 行动 者 有 着 或 多 或 少 \ 或 强 或 弱 的 关 
系 ,规模 测量 的 是 行动 者 与 其 他 行动 者 之 间 关 系 的 数量 。 当 把 研究 的 焦点 集中 于 某 一 特定 
行动 者 (节点 ) 上 时 ,对 关系 数量 的 考查 就 变 成 了 对 网 络 集中 性 (Centrality) 的 考查 。 所 谓 的 
“集中 性 ”, 是 指 特 定 行动 者 身上 凝聚 的 关系 的 数量 。 一 般 说 来 ,特定 行动 者 凝聚 的 关系 数量 
越 多 ,他 (她 ) 在 网 络 中 就 越 重要 。 不 过 ,关系 的 数量 多 少 并 不 是 行动 者 重要 性 的 唯一 指标 ， 
有 时 候 行 动 者 在 网 络 中 所 处 的 位 置 就 比 集 中 性 更 为 重要 。 特 别 地 , 当 行动 者 的 位 置 处 于 网 
络 边缘 时 ,数量 的 多 少 就 远 不 如 桥梁 性 位 置 来 得 重要 。 

(2) 强度 (Strength)。 格 兰 诺 维特 认为 测量 关系 强度 的 变量 包括 关系 的 时 间 量 (包括 频 
度 和 持续 时 间 )、 情 感 紧密 性 ,熟识 程 度 (相互 信任 ) 以 及 互惠 服务 。 如 果 花 在 关系 上 的 时 间 
越 多 、 情 感 越 紧 密 、 相 互 间 的 信任 和 服务 越 多 ,这 种 关系 就 越 强 ,反之 则 越 弱 。 

(3) 密度 (Density)。 网 络 中 一 组 行动 者 之 间 关 系 的 实际 数量 和 其 最 大 可 能 数量 之 间 
的 比率 (Ratio) 称 为 密度 。 实 际 的 关系 数量 越 接近 于 网 络 中 的 所 有 可 能 关系 的 总 量 , 网 络 的 
整体 密度 就 越 大 ,反之 则 越 小 。 与 格 兰 诺 维特 的 “情感 密度 "不同 的 是 ,网 络 密度 只 用 来 表示 
网 络 中 关系 的 稠密 程度 ,测量 的 是 联系 (Ties) ,而 “情感 密度 ” 则 是 指 联系 的 特定 内 容 一 一 情 
感 上 的 亲密 程度 。 

(4) 内 容 (Content)。 即 使 在 相同 的 网 络 中 ,行动 者 之 间 的 关系 也 会 具有 不 同 的 内 容 。 
所 谓 网 络 关 系 的 内 容 , 主 要 是 指 网 络 中 各 行为 者 之 间 联 系 的 特定 性 质 或 类 型 。 任 何 可 能 将 
行动 者 联系 (Tie) 起 来 的 东西 都 能 使 行动 者 之 间 产 生 关 系 (Relation) ,因此 内 容 的 表现 形式 
也 是 多 种 多 样 的 ,交换 关系 .亲属 关系 、 信 息 交 流 (Communicative) 关系、 感情 关系 、 工 具 关 
系 、 权 力 关系 等 都 可 以 成 为 具体 的 内 容 。 

(5) 不 对 称 关 系 (Asymmetric Relation) 与 对 称 关 系 (Symmetric Relation)。 在 不 对 称 
关系 中 ,相关 行动 者 的 关系 在 规模 ,强度 、 密 度 和 内 容 方 面 是 不 同 的 ; 而 在 对 称 关系 中 ,行动 
者 的 关系 在 这 些 方 面 的 表现 是 相同 的 。 例 如 , 当 信息 只 从 行动 者 A 流向 行动 者 B, 而 行动 
者 B 不 向 行动 者 A 提供 信息 时 ,两 者 之 间 的 关系 就 是 不 对 称 关 系 。 

(6) 直接 性 (Direct) 与 间接 性 (Indirect) 。 网 络 关系 的 另 一 个 内 容 就 是 直接 性 或 间接 
性 ,前 者 指 行动 者 之 间 直 接 发 生 的 关系 ,后 者 则 指 必须 通过 第 三 者 才能 发 生 的 关系 。 一 般 说 
来 ,直接 关系 连接 的 往往 是 相同 或 相似 的 行动 者 ,他 们 往往 彼此 认同 ,具有 相同 的 价值 观 , 因 
此 其 关系 通常 为 强 联 系 ; 而 间接 关系 中 由 于 有 中 间 人 的 存在 ,相互 联系 的 行动 者 之 间 关 系 
的 强度 受 距离 (中 间 人 的 数量 ) 的 影响 很 大 ,经 历 的 中 间 人 越 多 ,关系 越 弱 ,反之 则 可 能 (但 不 
必然 ) 越 强 。 

2) 位 置 取向 中 的 主要 分 析 内 容 

与 关系 取向 不 同 的 是 ,位 置 取向 强调 的 是 网 络 中 位 置 的 结构 性 特征 。 如 果 说 关系 取向 
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是 以 社会 黏着 (Social Cohesion) 为 研究 基点 ,以 关系 的 各 种 特征 为 表现 ,那么 ,位 置 取向 则 
以 结构 上 的 相似 为 基点 ,以 关系 的 相似 性 为 基本 特征 。 从 位 置 取向 来 看 ,位 置 所 反映 出 来 的 
结构 性 特征 更 加 稳定 和 持久 ,更 具有 普遍 性 ,因而 对 现实 也 更 具有 解释 力 , 且 需 要 分 析 的 内 
容 也 更 为 简单 明了 。 其 基本 内 容 如 下 。 

(1) 结构 等 效 (Structural Equivalence)。 当 两 组 或 两 组 以 上 的 行动 者 (他 们 之 间 不 一 定 
具有 关系 ) 与 第 三 个 行动 者 具有 相同 的 关系 时 , 即 为 结构 等 效 。 这 里 强调 的 是 在 同一 社会 网 
络 中 所 谓 的 等 效 点 必须 与 同一 个 点 保持 相同 的 关系 。 网 络 中 等 效 点 的 数量 和 质量 将 对 网 络 
的 驱动 力 产 生 很 大 的 影响 。 

(2) 位 置 (Position) 。 作 为 位 置 取向 的 核心 概念 ,位 置 在 这 里 指 的 是 在 结构 上 处 于 相同 
地 位 的 一 组 行动 者 或 节点 ,是 被 剥落 了 行动 者 而 剩 下 的 结构 性 特征 ,哪个 行动 者 处 在 这 个 位 
置 上 并 不 重要 ,重要 的 是 这 个 位 置 在 网 络 本 身 中 的 处 境 。 

(3) 角色 (Role)。 与 位 置 密切 相关 的 另 一 项 内 容 是 角色 , 它 是 结构 上 处 于 相同 地 位 的 
行动 者 在 面 对 其 他 行动 者 时 表现 出 来 的 相对 固定 的 行为 模式 。 反 过 来 说 ,具有 相同 社会 角 
色 的 往往 在 社会 网 络 结构 或 地 位 网 络 结构 中 处 于 相同 的 位 置 。 因 此 ,角色 在 某 种 程度 上 是 
位 置 的 行为 规范 。 


6.1.3 网 络 信息 中 的 社会 网 络 分 析 


在 互联 网 这 个 巨大 的 信息 载体 中 ,人 们 可 以 获得 社会 网 络 的 信息 源 有 很 多 ,例如 ,电子 
邮件 存档 、FOAF 文档 以 及 网 络 中 其 他 类 型 的 各 种 文档 。 本 书 侧重 于 研究 网 络 信息 内 容 中 
的 社会 网 络 抽取 。 这 是 因为 对 网 络 信息 内 容 的 分 析 具 有 更 好 的 现实 意义 。 从 文本 挖掘 的 角 
度 来 看 ,网 络 新 闻 在 网 络 信息 内 容 中 占据 了 很 大 一 部 分 比重 ,而 命名 实体 又 是 新 闻 文 档 中 的 
核心 组 成 部 分 。 因 此 网 络 信息 内 容 的 五 要 素 基 本 上 都 属于 命名 实体 的 范畴 ,只 要 了 解 了 实 
体 间 的 关系 ,就 对 新 闻 的 核心 内 容 有 了 大 概 的 了 解 ,对 新 闻 的 探测 、 跟 踪 自动 摘要 以 及 新 闻 
自动 推荐 方面 都 有 帮助 。 另 外 ,从 信息 内 容 安全 角度 来 看 ,准确 识别 新 闻 文 档 中 的 社会 网 络 
关系 ,特别 是 人 与 人 之 间 组 织 与 组 织 之 间 的 关系 ,对 于 了 解 整 篇 文档 的 主要 观点 和 社会 与 
论 的 动向 是 很 有 帮助 的 。 


6.1.4 社会 网 络 分 析 的 意义 


人 们 利用 互联 网 络 相互 沟通 ,通过 互动 形成 虚拟 社 群 , 它 是 人 际 关 系 、 共 享 经 验 的 累积 
与 凝聚 。 由 互联 网 络 构架 出 来 的 虚拟 社 群 ,不 仅 提供 了 信息 流通 的 通道 ,同时 也 累积 了 这 些 
信息 中 所 蕴含 的 知识 ,形成 一 种 巨大 的 知识 仓库 。 随 着 信息 技术 的 发 展 ,互联 网 络 上 的 虚拟 
社 群 已 成 为 一 种 重要 的 知识 共享 平台 。 互 联网 络 技术 发 展 的 同时 使 得 人 与 人 之 间 知 识 和 情 
感 的 来 源 和 表现 形式 更 加 多 样 化 。 计 算 机 和 网 络 技术 的 结合 创造 了 虚拟 沟通 的 可 能 性 ,从 
而 扩大 了 人 们 在 互联 网 络 上 建构 社会 网 络 的 形式 和 空间 。 当 互联 网 络 连 接 起 一 台 又 一 台 计 
算 机 时 ,同时 也 联系 了 这 一 台 又 一 台 计 算 机 的 使 用 者 ,这 样 计算 机 的 使 用 者 通过 互联 网 络 架构 
了 一 个 社会 关系 网 络 。 这 个 完全 通过 互联 网 络 所 构建 的 社会 网 络 是 虚拟 社区 的 重要 基础 。 
虚拟 社区 中 的 社会 网 络 与 真实 社区 中 的 一 样 ,也 存在 人 际 关系 中 的 强 联系 和 弱 联 系 等 人 际 
网 络 关 系 特 性 ,从 而 能 够 在 虚拟 社区 中 提供 信息 交换 、 知 识 共享 和 社会 支持 。 简 单 地 说 , 互 
联网 络 的 发 展 突破 了 人 们 建构 人 际 关系 与 社会 网 络 必须 通过 有 限 节点 的 先天 限制 ,使 得 人 
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们 都 能 轻易 地 通过 互联 网 络 自由 地 建构 起 个 人 的 社会 联系 。 互 联网 络 发 展 之 初 ,使 用 者 便 
互相 分 享 资料 ,解答 问题 ,交换 意见 ,共享 的 精神 一 直 是 网 络 的 特色 ,网 络 使 用 者 也 是 从 知识 
的 共享 开始 逐渐 发 展 出 情感 的 联系 。 

社会 网 络 能 清楚 表现 出 个 体 或 组 织 之 间 的 关系 ,在 人 们 日 常生 活 中 发 挥 着 重要 的 作用 。 
人 们 无 时 无 刻 不 在 通过 社会 网 络 与 外 界 的 人 、 组 织 或 其 他 实体 进行 交流 。 另 外 , 随 着 网 络 的 
普及 ,社会 网 络 在 网 络 信息 内 容 安全 研究 系统 中 的 作用 也 日 益 凸 显 , 例 如 邮件 过 滤 、 利 益 关 
系 分 析 、 人 的 可 信和 度 分 析 以 及 信息 共享 和 推荐 等 ,都 是 以 社会 网 络 分 析 为 基础 进行 的 。 另 
外 ,作为 社会 组 织 关 系 分 析 基 础 的 群 组 发 现 与 分 析 , 也 是 社会 网 络 的 一 个 重要 应 用 。 准 确 判 
断 实体 之 间 的 关系 网 络 , 对 研究 人 类 的 行为 及 其 他 方面 都 有 很 重要 的 作用 。 因 而 如 何 自动 
抽取 并 分 析 各 种 信息 源 中 的 社会 网 络 , 越 来 越 受 到 人 们 的 关注 。 


6.2 社会 网 络 分 析 的 研究 体系 


社会 网 络 分 析 法 可 以 从 多 个 不 同 角度 对 社会 网 络 进 行 分 析 , 包 括 中 心性 分 析 、 凝 聚 子 群 
分 析 和 核心 -边缘 结构 分 析 等 ,本 节 将 对 这 三 种 分 析 方 式 进行 简要 介绍 。 


6.2.1 中 心性 分 析 


“中 心性 ?是 社会 网 络 分 析 的 重点 之 一 。 个 人 或 组 织 在 其 社会 网 络 中 具有 怎样 的 权力 ， 
或 者 说 居于 怎样 的 中 心地 位 ,这 一 思想 是 社会 网 络 分 析 者 最 早 探讨 的 内 容 之 一 。 个 体 的 中 
心 度 (Centrality) 测 量 个 体 处 于 网 络 中 心 的 程度 ,反映 了 该 点 在 网 络 中 的 重要 性 程度 。 因 此 
一 个 网 络 中 有 多 少 个 行动 者 /节点 ,就 有 多 少 个 个 体 的 中 心 度 。 除 了 计算 网 络 中 个 体 的 中 心 
度 外 ,还 可 以 计算 整个 网 络 的 集中 趋势 (可 简称 为 中 心 势 )(Centralization) 。 与 个 体 中 心 度 
刻画 的 个 体 特性 不 同 ,网 络 中 心 势 刻画 的 是 整个 网 络 中 各 个 点 的 差异 性 程度 ,因此 一 个 网 络 
只 有 一 个 中 心 势 。 根 据 计 算 方 法 的 不 同 , 中 心 度 和 中 心 势 都 可 以 分 为 3 种 : 点 度 中 心 度 /点 
度 中 心 势 、 中 间 中 心 度 /中 间 中 心 势 .接近 中 心 度 /接近 中 心 势 。 

点 度 中 心性 在 一 个 社会 网 络 中 ,如 果 一 个 行动 者 与 其 他 行动 者 之 间 存 在 直接 联系 ,那么 
该 行动 者 就 居于 中 心地 位 ,在 该 网 络 中 拥有 较 大 的 “权利 ”。 在 这 种 思路 的 指导 下 ,网 络 中 一 
个 点 的 点 度 中 心 度 就 可 以 用 网 络 中 与 该 点 之 间 有 联系 的 点 的 数目 来 衡量 ,这 就 是 点 度 中 心 
度 。 网 络 中 心 势 指 的 是 网 络 中 点 的 集中 趋势 , 它 是 根据 以 下 思想 进行 计算 的 : 首先 找到 网 
络 图 中 的 最 大 中 心 度数 值 ; 然后 计算 该 值 与 任何 其 他 点 的 中 心 度 的 差 , 从 而 得 出 多 个 “ 差 
值 ”; 再 计算 这 些 “ 差 值 * 的 总 和 ; 最 后 用 这 个 总 和 除 以 各 个 “ 差 值 ”总 和 的 最 大 可 能 值 。 

中 间 中 心性 在 网 络 中 ,如 果 一 个 行动 者 处 于 许多 其 他 两 点 之 间 的 路 径 上 ,可 以 认为 该 行 
动 者 居于 重要 地 位 ,因为 他 /她 具有 控制 其 他 两 个 行动 者 之 间 的 交往 能 力 。 根 据 这 种 思想 来 
刻画 行动 者 个 体 中 心 度 的 指标 是 中 间 中 心 度 , 它 测量 的 是 行动 者 对 资源 控制 的 程度 。 一 个 
行动 者 在 网 络 中 占据 这 样 的 位 置 越 多 ,就 越 代表 它 具 有 很 高 的 中 间 中 心性 ,就 有 越 多 的 行动 
者 需要 通过 它 才 能 发 生 联 系 。 中 间 中 心 势 也 是 分 析 网 络 整体 结构 的 一 个 指数 ,其 含义 是 网 
络 中 中 间 中 心性 最 高 的 节点 的 中 间 中 心性 与 其 他 节点 的 中 间 中 心性 的 差距 。 该 节点 与 其 他 
节点 的 差距 越 大 , 则 网 络 的 中 间 中 心 势 越 高 ,表示 该 网 络 中 的 节点 可 能 分 为 多 个 小 团体 而 且 
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过 于 依赖 某 一 个 节点 传递 关系 ,该 节点 在 网 络 中 处 于 极其 重要 的 地 位 。 

接近 中 心性 点 度 中 心 度 刻 画 的 是 局 部 的 中 心 指数 ,衡量 的 是 网 络 中 行动 者 与 他 人 联系 
的 多 少 , 没 有 考虑 到 行动 者 能 否 控制 他 人 。 而 中 间 中 心 度 测 量 的 是 一 个 行动 者 “控制 ”他 人 
行动 的 能 力 。 有 时 还 要 研究 网 络 中 的 行动 者 不 受 他 人 “控制 ”的 能 力 ,这 种 能 力 就 用 接近 中 
心性 来 描述 。 在 计算 接近 中 心 度 的 时 候 , 我 们 关注 的 是 捷径 ,而 不 是 直接 关系 。 如 果 一 个 点 
通过 比较 短 的 路 径 与 许多 其 他 点 相连 ,我 们 就 说 该 点 具有 较 高 的 接近 中 心性 。 对 一 个 社会 
网 络 来 说 ,接近 中 心 势 越 高 ,表明 网 络 中 节点 的 差异 性 越 大 ; 反之 , 则 表明 网 络 中 节点 间 的 
差异 越 小 。 


6.2.2 凝聚 子 群 分 析 


当 网 络 中 某 些 行动 者 之 间 的 关系 特别 紧密 ,以 至 于 结合 成 一 个 次 级 团体 时 ,这 样 的 团体 
在 社会 网 络 分 析 中 被 称 为 凝聚 子 群 。 分 析 网 络 中 存在 多 少 个 这 样 的 子 群 . 子 群 内 部 成 员 之 
间 关系 的 特点 、 子 群 之 间 的 关系 特点 一 个 子 群 的 成 员 与 另 一 个 子 群 成 员 之 间 的 关系 特点 等 
就 是 凝聚 子 群 分 析 。 由 于 凝聚 子 群 成 员 之 间 的 关系 十 分 紧密 ,因此 有 的 学 者 也 将 凝聚 子 群 
分 析 形 象 地 称 为 “小 团体 分 析 ”。 

凝聚 子 群 根据 理论 思想 和 计算 方法 的 不 同 , 存 在 不 同类 型 的 凝聚 子 群 定义 及 分 析 方 法 。 

1. 派系 

在 一 个 无 向 网 络 图 中 ,“ 派 系 (Cliques)”" 指 的 是 至 少 包 含 3 个 点 的 最 大 完备 子 图 。 这 个 
概念 包含 3 层 含义 : 中 一 个 派系 至 少 包含 3 个 点 ; 回 派系 是 完备 的 ,根据 完备 图 的 定义 , 派 
系 中 任何 两 点 之 间 都 存在 直接 联系 ; @ 派 系 是 “最 大 "的 , 即 向 这 个 子 图 中 增加 任何 一 点 ,将 
改变 其 “完备 ”的 性 质 。 

2. 1- 派系 

对 于 一 个 总 图 来 说 ,如 果 其 中 的 一 个 子 图 满足 如 下 条 件 , 就 称 之 为 x- 派 系 (n-Cliques): 
在 该 子 图 中 ,任何 两 点 之 间 在 总 图 中 的 距离 ( 即 捷径 的 长 度 ) 最 大 不 超过 mn。 从 形式 化 角度 
说 , 令 d(i, 丫 代表 两 点 与 在 总 图 中 的 距离 ,那么 一 个 -派系 的 形式 化 定义 就 是 一 个 满足 
如 下 条 件 的 拥有 点 集 的 子 图 : d(i, 门 二 n, 对 于 所 有 的 ni;.n;EN 来 说 ,在 总 图 中 不 存在 与 子 
图 中 任何 点 的 距离 不 超过 的 点 。 

3. 7- 宗派 

所 谓 关 宗派 (xz-Clan) 是 指 满 足以 下 条 件 的 产 派系 : 其 中 任何 两 点 之 间 的 捷径 的 距离 都 
不 超过 n。 可 见 , 所 有 的 x 宗派 都 是 -派系 。 

4. Kk- 从 

一 个 -从 (k-Plex) 就 是 满足 下 列 条 件 的 一 个 凝聚 子 群 : 在 这 样 一 个 子 群 中 ,每 个 点 都 
至 少 与 除了 个 点 之 外 的 其 他 点 直接 相连 。 也 就 是 说 , 当 这 个 凝聚 子 群 的 规模 为 n 时 ,其 中 
每 个 点 至 少 都 与 该 凝聚 子 群 中 2 一 A 个 点 有 直接 联系 , 即 每 个 点 的 度数 都 至 少 为 2 一 A。 

凝聚 子 群 的 密度 (External-Internal Index,E-I Index) 主要 用 来 衡量 一 个 大 的 网 络 中 小 
团体 现象 是 否 十 分 严重 。 这 在 分 析 组 织 管理 等 实际 应 用 问题 时 十 分 有 用 。 最 糟糕 的 情形 是 
大 团体 很 散漫 ,核心 小 团体 却 有 高 度 内 聚 力 。 另 外 一 种 情况 就 是 大 团体 中 有 许多 内 聚 力 很 
高 的 小 团体 ,很 可 能 就 会 出 现 小 团体 间 相 互 斗争 的 现象 。 凝 聚 子 群 密度 的 取 值 范围 为 [一 1， 
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十 1]。 该 值 越 向 1 靠近 ,意味 着 派系 林立 的 程度 越 大 ; 该 值 越 接近 一 1, 意 味 着 派系 林立 的 
程度 越 小 ; 该 值 越 接 近 0, 表 明 关系 越 趋向 于 随机 分 布 , 看 不 出 派系 林立 的 情形 。 

E-I Index 可 以 说 是 企业 管理 者 一 个 重要 的 危机 指数 。 当 一 个 企业 的 E-I Index 过 高 
时 ,就 表示 该 企业 中 的 小 团体 有 可 能 结合 紧密 而 开始 图 谋 小 团体 私利 ,从 而 伤害 到 整个 企业 
的 利益 。 其 实 E-I Index 不 仅仅 可 以 应 用 到 企业 管理 领域 ,也 可 以 应 用 到 其 他 领域 ,例如 用 
来 研究 某 一 学 科 领 域 学 者 之 间 的 关系 。 如 果 该 网 络 存在 凝聚 子 群 ,并 且 凝 聚 子 群 的 密度 较 
高 ,说 明 处 于 这 个 凝聚 子 群 内 部 的 这 部 分 学 者 之 间 联 系 紧密 ,在 信息 分 享 和 科研 合作 方面 交 
往 频 繁 ,而 处 于 子 群 外 部 的 成 员 则 不 能 得 到 足够 的 信息 和 科研 合作 机 会 。 从 一 定 程度 上 来 
说 ,这 种 情况 也 是 不 利于 该 学 科 领 域 发 展 的 。 


6.2.3 核心 -边缘 结构 分 析 


核心 -边缘 (Core-Periphery) 结 构 分 析 的 目的 是 研究 社会 网 络 中 哪些 节点 处 于 核心 地 
位 ,哪些 节点 处 于 边缘 地 位 。 核 心 -边缘 结构 分 析 具 有 较 广 的 应 用 性 ,可 用 于 分 析 精 英 网 络 、 
科学 引文 关系 网 络 以 及 组 织 关 系 网 络 等 多 种 社会 现象 中 的 核心 -边缘 结构 。 

根据 关系 数据 的 类 型 ( 定 类 数据 和 定 比 数据 ) ,核心 -边缘 结构 有 不 同 的 形式 。 定 类 数据 
和 定 比 数据 是 统计 学 中 的 基本 概念 ,一 般 来 说 , 定 类 数据 是 用 类 别 来 表示 的 ,通常 用 数字 表 
示 这 些 类 别 ,但 是 这 些 数 值 不 能 用 来 进行 数学 计算 ; 而 定 比 数据 是 用 数值 来 表示 的 ,可 以 用 
来 进行 数学 计算 。 如 果 数 据 是 定 类 数据 , 则 可 以 构建 离散 的 核心 -边缘 模型 ， 如 果 数 据 是 定 
比 数据 , 则 可 以 构建 连续 的 核心 -边缘 模型 。 而 离散 的 核心 -边缘 模型 根据 核心 成 员 和 边缘 
成 员 之 间 关 系 的 有 无 及 关系 的 紧密 程度 ,又 可 分 为 以 下 3 种。 

(1) 核心 -边缘 全 关联 模型 ; 

(2) 核心 -边缘 局 部 关联 模型 ; 

(3) 核心 -边缘 关系 缺失 模型 。 

如 果 把 核心 和 边缘 之 间 的 关系 看 成 是 缺失 值 , 就 构成 了 核心 -边缘 关系 缺失 模型 。 这 里 
介绍 适用 于 定 类 数据 的 4 种 离散 的 核心 -边缘 模型 。 

(1) 核心 -边缘 全 关联 模型 。 网 络 中 的 所 有 节点 分 为 两 组 ,其 中 一 组 的 成 员 之 间 联 系 紧 
密 , 可 以 看 成 是 一 个 凝聚 子 群 (核心 ), 另 外 一 组 的 成 员 之 间 没 有 联系 ,但 是 该 组 成 员 与 核心 
组 的 所 有 成 员 之 间 都 存在 关系 。 

(2) 核心 -边缘 无 关 模 型 。 网 络 中 的 所 有 节点 分 为 两 组 ,其 中 一 组 的 成 员 之 间 联 系 紧 
密 , 可 以 看 成 是 一 个 凝聚 子 群 (核心 ) ,而 另外 一 组 成 员 之 间 则 没有 任何 联系 ,并 且 同 核心 组 
成 员 之 间 也 没有 联系 。 

(3) 核心 -边缘 局 部 关联 模型 。 网 络 中 的 所 有 节点 分 为 两 组 ,其 中 一 组 的 成 员 之 间 联 系 
紧密 ,可 以 看 成 是 一 个 凝聚 子 群 ( 核 心 ) ,而 另外 一 组 成 员 之 间 则 没有 任何 联系 ,但 是 它们 同 
核心 组 的 部 分 成 员 之 间 存 在 联系 。 

(4) 核心 -边缘 关系 缺失 模型 。 网 络 中 的 所 有 节点 分 为 两 组 ,其 中 一 组 的 成 员 之 间 的 密 
度 达 到 最 大 值 , 可 以 看 成 是 一 个 凝聚 子 群 (核心 ) ,另外 一 组 成 员 之 间 的 密度 达到 最 小 值 , 但 
是 并 不 考虑 这 两 组 成 员 之 间 关 系 密度 ,而 是 把 它 看 作 缺 失 值 。 
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6.3 ”社会 网 络 分 析 的 一 般 模 型 


6.3.1 社会 网 络 的 构建 


1. 具有 社团 结构 的 无 权 网 络 模型 

在 具有 社团 结构 的 无 权 网 络 模型 中 最 有 名 的 一 个 模型 就 是 BA 模型 。 该 模型 是 网 络 建 
模 中 的 一 个 经 典 模型 。BA 模型 很 好 地 解释 了 圭 律 度 分 布 的 产生 机 理 , 在 复杂 网 络 的 文献 
中 受到 了 极 大 的 关注 。 但 与 真实 网 络 相 比 ,BA 模型 还 有 一 定 的 缺陷 。 下 面 大 部 分 的 模型 
都 是 在 BA 模型 上 进行 了 各 种 扩展 和 变形 ,以 改变 模型 的 行为 或 使 其 更 能 表现 发 生 在 实际 
网 络 中 的 过 程 。 

2. 基于 分 离 者 模型 的 社团 结构 模型 

为 了 分 析 社 会 经 济 网 络 中 社团 的 形成 ,Gronlund 和 Holme 基于 社会 学 中 原始 的 分 离 
者 模型 提出 了 一 种 具有 社团 结构 的 网 络 模型 。 

在 原始 的 社会 网 络 分 离 者 模型 中 .定义 了 N 个 节点 ,每 个 节点 i 表示 社会 网 络 中 的 一 
个 个 体 ,用 (让) 表示 该 个 体 的 一 个 特征 值 (该 特征 值 根据 需要 可 以 赋予 不 同 的 定义 )。 在 演 
化 的 过 程 中 ,每 一 步 从 这 N 个 个 体 中 选择 3 个 个 体 记 ,is 和 is。 然 后 ,从 这 3 个 个 体 中 选择 
与 它们 的 平均 值 相差 最 大 的 节点 记 并 从 网 络 中 随机 选择 另 一 个 节点 j, 重 设 j 的 特征 什 
5(j) 一 s( 门 十 四 其 中 了 是 一 个 (0,1) 之 间 的 随机 数 。 该 模型 最 终 会 演化 为 一 个 具有 群 结构 的 
网 络 ,每 个 群 都 包含 自己 的 生命 周期 ,包括 该 群 的 诞生 、 吞 并 其 他 的 群 以 及 消逝 。 

基于 原始 的 分 离 者 模型 ,Gronlund 和 Holme 又 提出 了 两 个 新 的 参数 ,d(i,j) 和 e;。 其 
中 d(i, 站 定义 为 节点 i 和 节点 j 之 间 的 最 短路 径 长 度 , 而 e; 则 表示 节点 i 到 其 他 任意 节点 
的 最 大 距离 。 在 此 基础 上 ,他 们 重新 构建 了 分 离 者 模型 。 初 始 网 络 为 N 个 节点 和 人 M 条 边 。 
在 演化 过 程 中 ,每 一 步 从 N 个 节点 中 随机 选取 王 .ia 和 i 三 个 节点 ,并 从 中 选择 最 * 非 中 心 ” 
的 节点 区 当 网 络 连通 时 ,为 网 络 中 具有 最 大 e; 的 节点 ; 若 网 络 不 连通 , 则 为 最 小 连通 子 图 
中 e 最 大 的 节点 ; 车 这 个 节点 不 止 一 个 , 则 从 中 随机 选择 一 个 )。 然 后 ,从 网 络 中 随机 选择 
一 个 节点 j(j 才 六 ,并 比较 这 两 个 节点 的 度 。 车 冯 j) 一 A( 门 十 1, 则 将 节点 了 的 边 重 连 到 节点 
;以 及 它 的 邻居 (其 中 节点 ;的 邻居 随机 选择 ); 若 &CJ) 过 &( 门 十 1, 则 重 连 六 的 边 到 六 ;的 所 有 
邻居 以 及 其 他 (Oj) 一 &( 六 十 1 个 节点 。 之 后 ,遍历 节点 j 的 所 有 边 , 以 概率 p 将 它 重 连 到 网 
络 中 的 任意 一 个 节点 。 该 模型 与 原始 的 分 离 者 模型 基本 上 是 一 致 的 .只 是 引入 了 概率 p 的 
随机 重 连 ,因此 网 络 中 有 长 程 边 的 出 现 , 从 而 使 网 络 具有 “小 世界 ”的 特性 。 

Gronlund 和 Holme 利用 GN 算法 分 析 了 利用 该 模型 得 到 的 网 络 , 证 明 该 模型 具有 比 
较 明显 的 社团 结构 ,而 且 随 着 网 络 规 模 N 的 增 大 ,该 模型 最 后 演化 得 到 的 社团 数目 以 及 社 
团 的 平均 大 小 都 呈现 震 律 上 升 的 规律 。 另 外 ,社团 内 部 和 不 同 社团 之 间 的 节点 的 平均 距离 
也 随 着 网 络 规模 的 增 大 呈现 指数 上 升 的 趋势 ; 而 利用 该 模型 得 到 的 网 络 中 ,社团 内 部 节点 
间 的 平均 距离 与 社团 间 节 点 的 平均 距离 的 差 值 比 随机 图 中 的 差 值 大 得 多 ,这 也 进一步 证 明 
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了 该 模型 得 到 的 网 络 具有 比较 明显 的 社团 结构 。 此 外 ,该 模型 得 到 的 网 络 聚 类 系数 比较 大 ， 
而 且 表 现 出 同 配 性 , 即 度 大 的 节点 趋向 于 与 度 大 的 节点 相连 ,而 度 小 的 节点 趋向 于 与 度 小 的 
节点 相连 ,这 也 体现 了 社会 网 络 的 特点 。 


6.3.2 社会 网 络 的 发 现 


社会 网 络 一 般 指 节点 众多 .连接 关系 复杂 的 网 络 。 由 于 其 灵活 普 适 的 描述 能 力 , 能 够 广 
泛 应 用 于 各 科学 领域 对 复杂 系统 进行 建 模 、 分 析 , 近 年 来 吸引 了 越 来 越 多 的 人 对 其 进行 研 
究 。 随 着 研究 的 深入 ,人 们 发 现 许 多 实际 网 络 均 具 有 社团 结构 , 即 整个 网 络 由 若干 个 社团 组 
成 ,社团 之 间 的 连接 相对 稀 玖 ,社团 内 部 的 连接 相对 稠密 。 社 团 发 现 则 是 利用 图 拓扑 结构 中 
所 蕴藏 的 信息 从 复杂 网 络 中 解析 出 其 模块 化 的 社团 结构 ,该 问题 的 深入 研究 有 助 于 以 一 种 
分 而 治之 的 方式 研究 整个 网 络 的 模块 .功能 及 其 演化 ,更 准确 地 理解 复杂 系统 的 组 织 原则 、 
拓扑 结构 与 动力 学 特性 ,具有 十 分 重要 的 意义 。 

自 2002 年 Girvan 和 Newman 基于 边 介 数 提出 GN 算法 以 来 ,国际 上 掀起 一 股 社团 发 
现 的 研究 热潮 ,来 自生 物 、 物 理 、 计 算 机 等 各 学 科 领 域 的 研究 者 们 带 来 了 许多 新 颖 的 思想 和 
算法 ,并 广泛 应 用 于 各 个 学 科 领 域 的 具体 问题 中 。 本 节 在 归纳 总 结 的 基础 上 ,从 非 重 稚 社 团 
发 现 和 重生 社团 发 现 两 个 方面 综述 当前 社团 发 现 算法 的 新 进展 ,并 展望 该 领域 未 来 的 一 些 
研究 方向 。 

1. 非 重 秋 社团 算法 

非 重 从 社团 发 现 是 指 识别 出 的 社团 之 间 互 不 重 又 ,每 个 节点 有 且 仅 属于 一 个 社团 。 社 
团 发 现 早 期 的 研究 工作 大 部 分 都 围绕 非 重合 社 团 发 现 展开 。 近 年 来 ,基于 对 社团 结构 的 不 
同 理解 ,研究 者 们 在 对 节点 集 划分 时 采用 的 标准 和 策略 不 同 , 衍 生出 许多 风格 近 异 的 新 算 
法 ,典型 算法 有 模块 度 优化 算法 . 谱 分 析 法 .信息论 方法 .标号 传播 方法 等 。 

1) 基于 模块 度 优化 的 社团 发 现 算法 

基于 模块 度 优化 的 社团 发 现 算法 是 目前 研究 最 多 的 一 类 算法 ,其 思想 是 将 社团 发 现 问 
题 定义 为 优化 问题 ,然后 搜索 目标 值 最 优 的 社团 结构 。 由 Newman 等 首先 提出 的 模块 度 Q 
值 是 目前 使 用 最 广泛 的 优化 目标 ,该 指标 通过 比较 真实 网 络 中 各 社团 的 边 密度 和 随机 网 络 
中 对 应 子 图 的 边 密 度 之 间 的 差异 来 度量 社团 结构 的 显著 性 。 模 块 度 优化 算法 根据 社团 发 现 
时 的 计算 顺序 大 致 可 分 为 3 类。 

第 一 类 算法 采用 聚合 思想 , 自 底 向 上 进行 ,典型 代表 算法 有 Newman 快速 算法 .CNM 
算法 和 MSG MV 算法 等 。Newman 快速 算法 将 每 个 节点 看 作 是 一 个 社团 ,每 次 迭代 选择 
产生 最 大 Q 值 的 两 个 社团 合并 ,直至 整个 网 络 融 合成 一 个 社团 。 整 个 过 程 可 表示 成 一 个 树 
状 图 ,从 中 选择 Q 值 最 大 的 层次 划分 得 到 最 终 的 社团 结构 。 该 算法 的 总 体 时 间 复 杂 度 为 
Olm(m 十 n))。 在 Newman 快速 算法 的 基础 上 .CNM 算法 采用 堆 数据 结构 来 计算 和 更 新 网 
络 的 模块 度 , 大 大 提高 了 计算 速度 ; MSG MV 算法 则 引入 多 步 扩 展 , 人 迭代 过 程 中 每 次 可 合 
并 多 对 社团 ,以 避免 过 早 地 收缩 到 少数 较 大 的 社团 中 。 

第 二 类 算法 主要 采用 分 裂 的 思想 , 自 顶 向 下 进行 。 例 如 ,Newman 最 早 提出 的 GN 算法 
就 属于 这 类 算法 ,算法 通过 依次 删 去 网 络 中 边 介 数 ( 即 网 络 中 经 过 每 条 边 的 最 短路 径 数 ) 最 
大 的 边 ,直至 每 个 节点 单独 退化 为 社团 ,然后 从 整个 删 边 过 程 中 选取 对 应 最 大 Q 值 时 的 结 
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果 。 该 算法 时 间 复 杂 度 较 高 ,为 0(w*)。 随 后 ,Newman 等 人 通过 定义 模块 度 和 矩阵 ,将 模块 
度 用 矩阵 的 特征 向 量 表示 ,提出 一 种 用 于 划分 网 络 社团 结构 的 谱 方法 。 该 算法 通过 求解 模 
块 度 和 矩阵 的 最 大 正 特 征 值 以 及 对 应 的 特征 向 量 , 依 据 特 征 向 量 中 元 素 的 符号 将 网 络 不 断 递 
归 二 分 ,直至 子 网 络 再 细 分 已 不 能 增 大 Q 值 。 整 个 算法 的 平均 时 间 复 杂 度 比 GN 算法 在 计 
算 速度 和 准确 度 上 均 有 较 大 提高 。 

第 三 类 算法 则 是 直接 寻 优 法 ,如 Duch 等 提出 的 EO 算法 以 及 Agatwal 等 提出 的 整数 
规划 方法 。EO 算法 的 思想 是 将 每 个 节点 对 模块 度 Q 值 的 贡献 大 小 定义 为 局 部 变量 ,然后 
在 随机 初始 划分 的 基础 上 ,通过 贪 禁 策略 调整 局 部 变量 (具有 最 小 贡献 度 的 变量 ) 来 提高 全 
局 目标 函数 Q 值 。 整 数 规划 方法 则 通过 求解 对 应 的 松弛 线性 规划 问题 给 出 最 大 模块 度 的 
一 个 上 界 , 这 是 以 前 的 方法 所 不 具备 的 。 此 外 ,还 有 一 些 基于 遗传 算法 、 蚁 群 算法 等 智能 算 
法 的 社团 发 现 算法 也 可 归 为 此 类 。 

近年 来 越 来 越 多 的 研究 发 现 : 模块 度 优化 方法 无 法 发 现 小 于 一 定 粒度 的 社团 。 在 实际 
网 络 中 ,尤其 是 大 规模 网 络 中 ,社团 的 大 小 不 一 ,该 问题 尤为 突出 。 为 此 ,研究 者 们 提出 一 些 
局 部 调整 策略 。 如 Ruan 等 结合 谱 平 分 法 和 局 部 搜索 方法 提出 的 HQCut 算法 ,在 分 裂 网 络 
前 增加 统计 测试 来 判断 是 否 须 进一步 细 分 。 此 外 ,部 分 研究 者 提出 新 的 模块 度 来 避免 Q 值 
存在 的 粒度 问题 。 如 李 珍 萍 等 提出 的 模块 度 D 值 ,在 衡量 社团 内 外 连接 度 的 差异 时 ,引入 
了 社团 大 小 作为 分 母 进行 平均 ,从 理论 和 数值 试验 上 证 明了 作为 模块 度 D 值 要 优 于 Q 值 。 
总 地 来 说 ,模块 度 优化 算法 是 目前 应 用 最 为 广泛 的 一 类 算法 ,但 是 在 具体 分 析 中 ,很 难 确定 
一 种 合理 的 优化 目标 ,使 得 分 析 结 果 难 以 反映 真实 的 社团 结构 ,尤其 是 分 析 大 规模 复杂 网 络 
时 ,搜索 空间 非常 大 ,使 得 许多 模块 度 近似 优化 算法 的 结果 变 得 更 不 可 靠 。 

2) 基于 谱 分 析 的 社团 发 现 算法 

谱 分 析 法 建立 在 谱 图 理论 基础 上 ,其 主要 思想 是 根据 特定 图 矩阵 的 特征 向 量 导出 对 象 
的 特征 ,利用 导出 特征 来 推断 对 象 之 间 的 结构 关系 。 通 常 选用 的 特定 图 矩阵 有 拉 普 拉 斯 矩 
阵 和 随机 矩阵 两 类 。 图 的 拉 普 拉 斯 矩阵 定义 为 L 二 D 一 W, 其 中 DD 为 以 每 个 节点 的 度 为 对 
角 元 的 对 角 和 矩阵 ,W 为 图 的 邻接 矩阵 ; 随机 和 矩阵 则 是 根据 邻接 矩阵 导出 的 概率 转移 矩阵 
P= 二 DW。 这 两 类 矩阵 有 一 个 共同 性 质 : 同一 社团 节点 对 应 的 特征 分 量 近似 相等 ,这 成 为 
目前 谱 分 析 方 法 实现 社团 发 现 的 理论 基础 。 基 于 谱 分 析 的 社团 发 现 算法 的 普遍 做 法 是 将 节 
点 对 应 的 矩阵 特征 分 量 看 作 空间 坐标 ,将 网 络 节点 映射 到 多 维特 征 向 量 空 间 中 ,运用 传统 的 
聚 类 方法 将 节点 聚 成 社团 。 例 如 ,Donetti 等 基于 节点 之 间 的 距离 度量 ,在 不 同 维度 的 特征 
空间 中 建立 聚 类 树 图 ,从 中 选择 全 局 模块 度 最 大 的 划分 作为 社团 发 现 结果 。Capocci 等 则 基 
于 同一 社团 的 节点 对 应 的 随机 矩阵 特征 分 量 强 相关 这 一 性 质 , 提出 计算 特征 向 量 的 
Pearson 相关 系数 来 度量 节点 之 间 的 相似 度 。 应 用 谱 分 析 法 不 可 避免 地 要 计算 矩阵 特征 
值 , 计 算 开 销 大 ,但 由 于 能 够 通过 特征 谱 将 节点 映射 至 欧 拉 空间 ,并 能 够 直接 应 用 传统 向 量 
聚 类 的 众多 研究 成 果 ,灵活 性 较 大 。 

3) 基于 信息 论 的 社团 发 现 算法 

从 信息 论 的 角度 出 发 ,Rosvall 等 把 网 络 的 模块 化 描述 看 作对 网 络 拓扑 结构 的 一 种 有 损 
压缩 ,从 而 将 社团 发 现 问题 转换 为 信息 论 中 的 一 个 基础 问题 : 寻找 拓扑 结构 的 有 效 压 缩 方 
式 。 如 图 6-1 所 示 , 原 拓扑 结构 X 通过 编码 器 产生 模块 描述 ,解码 器 对 Y 进行 解码 ,推测 
出 原 结构 Z, 那 么 何 种 模块 描述 Y 是 最 优 的 ?以 信息 论 的 观点 来 看 ,互信 息 (X,Y) 最 大 


124 网 络 信息 内 容 安 全 





时 , 即 最 能 反映 原始 结构 X 的 工 是 最 优 的。 在 该 框架 下 ,互信 息 ICX,Y) 最 大 等 价 于 求 条 件 
信息 互 (XIY) 最 小 ,Rosvall 等 给 出 了 条 件 信息 的 量化 表示 ,并 运用 模拟 退火 优化 算法 进行 
求解 ,可 实现 上 千 个 节点 的 网 络 社团 发 现 。 测 试 表 明 , 对 于 社团 大 小 及 边 密 度 不 一 的 社团 发 
现 问题 ,该 发 现 算法 要 明显 优 于 基于 模块 度 优化 的 社团 发 现 算法 。 后 来 ,Rosvall 等 进一步 
以 描述 图 中 信息 的 扩散 过 程 为 目标 ,将 问题 转换 为 寻找 描述 网 络 上 随机 游 走 的 有 效 编码 方 
式 , 使 该 方法 更 适合 于 捕 提 社团 内 部 节点 之 间 的 长 程 相 关 性 ,已 有 文献 测试 表明 ,该 方法 是 
目前 非 重 和 到 社团 发 现 算法 里 准确 度 最 高 的 一 类 方法 。 





xX i Zz 
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图 6-1 从 信息 论 的 角度 看 社团 发 现 




















2. 重 又 社团 算法 

前 面 所 介绍 的 非 重 和 至 社团 发 现 方法 把 每 个 节点 严格 地 划分 到 某 个 社团 中 , 而 真实 世界 
中 这 种 硬 划 分 并 不 能 真正 反映 节点 和 社团 的 实际 关系 ,例如 蛋白 质 相 互 作 用 网 络 中 ,由 于 和 蛋 
白质 功能 的 多 样 性 ,单个 蛋白 质 在 不 同 的 时 空 条 件 下 参与 不 同 的 功能 模块 中 。 同 样 的 现象 
普遍 存在 于 各 种 真实 网 络 之 中 ,如 社会 网 络 中 的 人 属于 多 个 集体 .网 络 中 的 网 页 属于 多 个 主 
题 等 。 因 此 , 重 伙 社团 发 现 更 符合 真实 世界 的 社团 组 织 规律 ,成 为 近年 来 社团 发 现 研 究 的 新 
热点 ,涌现 出 许多 新 颖 的 算法 。 

1) 基于 团 渗透 改进 的 重 释 社 团 发 现 算法 

由 Palla 等 提出 的 团 渗透 算法 是 首 个 能 够 发 现 重合 社团 的 算法 。 该 类 算法 认为 社团 是 
由 一 系列 相互 可 达 的 太 团 ( 即 大 小 为 的 完全 子 图 ) 组 成 的 , 即 社团 。 算 法 通过 合并 相 邻 
的 所 团 来 实现 社团 发 现 , 而 那些 处 于 多 个 处 社团 中 的 节点 即 是 社团 的 “ 重 闪 ”部 分 。 
Kumplula 等 在 前 人 工作 基础 上 进一步 提出 一 种 快速 团 渗透 算法 (SCP 算法 )。 该 算法 分 两 
阶段 进行 : 第 一 阶段 将 网 络 的 边 按 顺 序 ( 如 加 权 网 络 按 权 值 大 小 顺序 ) 插 入 到 网 络 中 ,并 同 
时 检测 出 现 的 全 团 ; 第 二 阶段 将 检测 的 入 团 根据 是 否 与 已 有 A 社 团 相 邻 ,并 和 信 社 团 或 形 
成 新 的 -社团 。 由 于 边 插 入 的 顺序 性 ,在 第 二 阶段 检测 时 SCP 算法 只 须 依次 对 全 团 进行 局 
部 判断 ; 而 SCP 算法 能 够 在 一 遍 运行 中 检测 不 同 权重 阔 值 下 的 大 社团 , 较 大 地 提高 了 团 渗 
透 算法 的 计算 速度 。 基 于 团 渗透 思想 的 算法 需要 以 团 为 基本 单元 来 发 现 重 琶 ,这 对 于 很 多 
真实 网 络 ,尤其 是 稀 玻 网 络 而 言 , 限 制 条 件 过 于 严格 ,只 能 发 现 少量 的 重 肆 社团 。 

2) 基于 模糊 聚 类 的 重 琶 社团 发 现 算法 

另 一 观点 认为 可 将 重 又 社团 发 现 归于 传统 模糊 聚 类 问题 加 以 解决 ,通过 计算 节点 到 社 
团 的 模糊 隶属 度 来 揭示 节点 的 社团 关系 。 这 类 算法 通常 从 构建 节点 距离 出 发 , 青 结合 传统 
模糊 聚 类 求解 隶属 度 矩 阵 。 张 世 华 等 人 首先 应 用 这 一 思想 ,他 们 结合 谱 分 析 方 法 将 网 络 中 
的 节点 近似 映射 到 欧 拉 空间 中 的 数据 点 ,进而 利用 FCM 算法 对 空间 中 的 数据 点 进行 聚 类 ， 
从 而 得 到 节点 与 社团 之 间 的 隶属 度 矩 阵 。 由 于 模糊 聚 类 算法 FCM 本 身 要 求 预 先知 道 社团 
数目 ,该 算法 在 模块 度 Q 值 的 基础 上 引入 新 的 模块 度 指标 模糊 模块 度 Q ,选取 使 得 Q 值 最 
大 的 模糊 聚 类 结果 作为 最 终 的 社团 划分 结果 。 上 述 方法 在 判断 社团 数 上 需要 预先 给 定 或 花 
费 大 量 计算 以 确定 合理 的 社团 数目 。 有 研究 者 提出 基于 通信 -时 间 核 构建 距离 矩阵 ,输入 
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到 模糊 相似 性 传播 聚 类 来 实现 重 又 社团 发 现 , 在 考虑 节点 长 程 相关 性 的 同时 ,可 以 自 适应 地 
确定 社团 数目 。 值 得 一 提 的 是 ,此 类 算法 的 关键 在 于 所 构建 的 距离 矩阵 ,采用 何 种 节点 距离 
更 符合 实际 情况 在 具体 应 用 中 是 一 个 值得 探索 的 问题 。 


6.3.3 节点 地 位 评估 


如 何 用 定量 分 析 的 方法 识别 超大 规模 社会 网 络 中 哪些 节点 最 重要 ,或 者 评价 某 个 节点 
相对 于 其 他 一 个 或 多 个 节点 的 重要 程度 ,这 是 复杂 网 络 研究 中 或 待 解决 的 重要 问题 之 一 。 
近年 来 有 不 少 学 者 已 从 新 的 视角 研究 网 络 节点 重要 性 排序 ,例如 Kitsak 等 人 于 2010 年 首 
次 提出 了 节点 重要 性 依赖 于 其 在 整个 网 络 中 的 位 置 的 思想 ,并 且 利 用 大 核 分 解 获得 了 比 
度 、 介 数 更 为 准确 的 节点 重要 性 排序 指标 。 在 短 短 两 年 半 内 Kitsak 等 人 发 表 该 思想 的 文献 
其 Google Scholar 的 引用 次 数 已 高 达 170 余 次 。 在 本 小 节 中 首先 介绍 基于 网 络 结构 的 节点 
重要 性 排序 度量 指标 ,这 类 指标 主要 从 网 络 的 局 部 属性 、 全 局 属性 、 网 络 的 位 置 和 随机 游 走 
4 个 方面 展开 ,同时 对 这 些 方法 的 优 缺点 及 适用 范围 进行 了 分 析 。 

1. 问题 描述 

假设 网 络 G 二 (V,E) 是 由 |V| 一 NN 个 节点 和 |E| 二 M 条 边 连 接 所 组 成 的 一 个 无 向 网 
络 。 网 络 的 A 二 {ay) .as 二 1 表示 节点 i 与 节点 j(i 了 站 之 间 直 接连 接 , 否 则 二 0。 网 络 中 
节点 重要 性 排序 方法 的 准确 性 常用 传播 动力 学 进行 度量 ,一 般 以 网 络 节点 为 传播 源 ,利用 传 
播 动力 学 模型 仿真 ,通过 计算 网 络 中 目标 节点 的 影响 范围 来 度量 节点 在 传播 过 程 中 的 影响 
力 。 另 一 种 方法 是 考虑 节点 删除 前 后 图 的 连通 状况 的 变化 情况 ,将 节点 的 重要 性 等 价 为 该 
节点 被 删除 后 对 网 络 的 破坏 性 。 假 设 在 一 个 网 络 中 , 某 个 节点 被 删除 , 则 同时 移 走 了 与 该 节 
点 相连 的 所 有 边 , 从 而 可 能 使 得 网 络 的 连通 性 变 差 。 节 点 被 删 去 后 网 络 连 通 性 变 得 越 差 , 则 
表明 该 节点 越 重要 。 经 过 网 络 抗 毁 性 实验 得 出 的 节点 重要 性 排序 与 先前 的 节点 重要 性 排序 
方法 的 结果 越 相 似 , 则 认为 该 排序 方法 越 准确 。 

2. 基于 网 络 结构 的 节点 重要 性 排序 方法 

复杂 网 络 中 节点 重要 性 可 以 是 节点 的 影响 力 、 地 位 或 者 其 他 因素 的 综合 。 从 网 络 拓扑 
结构 人 手 是 研究 这 一 问题 常用 的 方法 之 一 。 最 早 对 这 一 问题 进行 研究 的 是 社会 学 家 ,随后 
其 他 领域 的 学 者 们 也 开始 研究 这 一 问题 ,提出 了 一 系列 的 评估 指标 。 下 面 从 网 络 的 局 部 属 
性 、 全 局 属性 、 网 络 的 位 置 以 及 随机 游 走 4 个 角度 出 发 ,介绍 了 基于 网 络 结构 节点 重要 性 排 
序 的 不 同 指标 。 

1) 基于 网 络 局 部 属性 的 指标 

基于 网 络 局 部 属性 的 节点 重要 性 排序 指标 主要 考虑 节点 自身 信息 和 其 邻居 信息 ,这 些 
指标 计算 简单 .时 间 复杂 度 低 , 可 以 用 于 大 型 网 络 。 节 点 i 的 度 (Degree) 定 义 为 该 节点 的 邻 
居 数 目 , 具 体 表示 为 








kD = Das (6-1) 
jEG 


JEG 
度 指标 直接 反映 的 是 一 个 节点 对 于 网 络 其 他 节点 的 直接 影响 力 。 例 如 在 一 个 社交 网 络 
中 ,有 大 量 的 邻居 数目 的 节点 可 能 有 更 大 的 影响 力 、 更 多 的 途径 获取 信息 ,或 有 更 高 的 声望 ; 
又 如 在 引文 网 络 中 ,利用 文章 的 引用 次 数 来 评价 科学 论文 的 影响 力 。 王 建 伟 等 人 认为 ,网 络 
中 节点 的 重要 性 不 但 与 自身 的 信息 具有 一 定 的 关系 ,而 且 与 该 节点 邻居 节点 的 度 也 存在 一 
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定 的 关联 , 即 节点 的 度 及 其 邻居 节点 的 度 越 大 ,节点 就 越 重要 。 
Chen 等 人 考虑 节点 最 近邻 居 和 次 近邻 居 的 度 信息 ,定义 了 一 个 多 级 邻居 信息 指标 
(Local Centrality) 来 对 网 络 中 节点 的 重要 性 排序 ,其 具体 定义 如 下 : 
Le = 2 NO (6-2) 


JETrG) uETO) 
其 中 了 (让 为 节点 i 最 近邻 居 集 合 ,TP (j) 为 节点 j 最 近邻 居 集 合 ,N (ww) 为 节点 4 最 近邻 居 数 
和 次 近邻 居 数 之 和 。 任 卓 明 等 人 综合 考虑 节点 的 邻居 个 数 ,以 及 其 邻居 之 间 的 连接 紧密 程 
度 , 提 出 了 一 种 基于 邻居 信息 与 集聚 系数 的 节点 重要 性 评价 方法 。 具 体 表示 为 


2 一 一 大 -+ 一 本 (6-3) 
2 25 
其 中 ;为 节点 自身 度 与 其 邻居 度 之 和 , 印 
fi=kD)+ Bk) (6-4) 


uaET(CD 


其 中 (ww) 表 示 节 点 的 度 ,uET(i) 表 示 节 点 i 的 邻居 节点 集合 。g; 表示 为 











sel Ga 
本 一 一 ye fi 二 (6-5) 

max [P| 一 max| 关 | 
其 中 ci 为 节点 i 的 集聚 系数 。 法 只 需要 考虑 网 络 局 部 信息 ,适合 于 对 大 规模 网 络 的 节 


点 重要 性 进行 有 效 分 析 。 pe tenet rgd 
网 络 传播 得 更 快 ,节点 的 传播 重要 性 与 该 节点 的 集聚 性 有 关 。Goel 等 人 通过 研究 Facebook 
系统 中 朋友 关系 演化 特性 发 现 , 邻 居 节点 的 绝对 数目 不 是 影响 节点 重要 性 的 决定 性 因素 ,起 
决定 作用 的 是 邻居 节点 之 间 形 成 的 联通 子 图 的 数目 。 

2) 基于 网 络 全 局 属性 的 指标 

基于 网 络 全 局 属性 的 节点 重要 性 排序 指标 主要 考虑 网 络 全 局 信息 ,这 些 指 标 一 般 准确 
性 比较 高 ,但 时 间 复 杂 度 高 ,不 适用 于 大 型 网 络 。 特 征 向 量 (Eigenvector Centrality) 是 评估 
网 络 节点 重要 性 的 一 个 重要 指标 。 度 指标 把 周围 相 邻 节点 视 为 同等 重要 ,而 实际 上 节点 之 
间 是 不 平等 的 ,必须 考虑 到 邻居 对 该 节点 的 重要 性 有 一 定 的 影响 。 如 果 一 个 节点 的 邻居 很 
重要 ,这 个 节点 重要 性 很 可 能 高 ; 如 果 邻 居 重要 性 不 是 很 高 .那么 即使 该 节点 的 邻居 众多 ， 
也 不 一 定 很 重要 。 通 常 称 这 种 情况 为 邻居 节点 的 重要 性 反馈 。 特 征 向 量 指标 是 网 络 邻 接 矩 
阵 对 应 的 最 大 特征 值 的 特征 向 量 。 具 体 定义 如 下 : 


Gi p23 ej (6-6) 


其 中 4 为 邻接 矩阵 A 的 最 大 特征 值 ; e 二 (ei .es，… ,es,)" 为 邻接 矩阵 A 对 应 最 大 特征 值 X 对 
应 的 特征 向 量 。 特 征 向 量 指标 是 从 网 络 中 节点 的 地 位 或 声望 角度 考虑 ,将 单个 节点 的 声望 
看 成 是 所 有 其 他 节点 声望 的 线性 组 合 . 从 而 得 到 一 个 线性 方程 组 。 该 方程 组 的 最 大 特征 值 
所 对 应 的 特征 向 量 就 是 各 个 节点 的 重要 性 。Poulin 等 人 在 求解 特征 向 量 映射 迭代 方法 的 基 
础 上 提出 累计 提名 (Cumulated Nomination Centrality) 的 方法 ,该 方法 计算 网 络 中 的 其 他 节 
点 对 目标 节点 的 提名 值 总 和 。 累 计 提 名 值 越 高 的 节点 其 重要 性 就 越 高 。 累 计 提 名 方法 计算 
量 较 少 ,收敛 速度 较 快 ,而 且 适 用 于 大 型 和 多 分 支 网 络 。Katz 指标 同 特 征 向 量 一 样 ,可 以 区 
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分 不 同 的 邻居 对 节点 的 不 同 影响 力 。 不 同 的 是 Katz 指标 给 邻居 赋予 不 同 的 权重 ,对 于 短路 
径 赋 予 较 大 的 权重 ,而 长 路 径 赋予 较 小 的 权重 。 具 体 定 义 为 

S= 有 十 FF4 十 让 4 十 … 一 (一 把 ) 一 一 工 (6-7) 
其 中 工 为 单位 矩阵 ,4 为 网 络 的 邻接 矩阵 ,8 为 权重 衰减 因子 。 为 了 保证 数列 的 收敛 性 ,8 的 
取 值 须 小 于 邻接 矩阵 4 最 大 特征 值 的 倒数 ,然而 该 方法 权重 衰减 因子 的 最 优 值 只 能 通过 大 
量 的 实验 验证 获得 ,因此 具有 一 定 的 局 限 性 。 紧 密度 (Closeness Centrality) 用 来 度量 网 络 
中 的 节点 通过 网 络 对 其 他 节点 施加 影响 的 能 力 。 节 点 的 紧密 度 越 大 ,表明 该 节点 跃 居于 网 
络 的 中 心 ,在 网 络 中 就 越 重要 。 紧 密度 具体 定义 如 下 : 


CD) = 以 一 (6-8) 


其 中 dj 表示 节点 i 到 节点 j 的 最 短 距离 。 紧 密度 依赖 于 网 络 的 拓扑 结构 ,对 类 似 于 星 形 结 
构 的 网 络 , 它 可 以 准确 地 发 现 中心 节 点 ,但 是 对 于 随机 网 络 则 不 适合 ,而 且 该 方法 的 计算 时 
间 复 杂 度 为 OCN*)。Zhang 等 人 考虑 节点 的 影响 范围 ,定义 了 Kernel 函数 法 ,具体 定义 
如 下 : 


NN 避 
UG) = De (6-9) 
j=1 


其 中 di 表示 节点 i 到 节点 j 的 最 短 距离 ,h 表示 Kernel 函数 的 宽度 ,h 越 大 此 函数 越 平滑 ， 
节点 影响 范围 越 大 ,反之 亦 然 。 忆 度 到 非 基 得 路径 的 信息 Kernel 函数 法 的 另 一 表述 为 


UD = Pet ye - (6-10) 


其 中 p 表示 节点 i 到 其 他 所 有 节点 的 非 最 短 距离 路 线 ， L(p) 表 示 这 些 非 最 短路 线 的 长 度 。 
虽然 Kernel 函数 法 较 紧 密度 更 准确 ,但 时 间 复 杂 度 依然 没有 降低 ,不 适用 于 大 型 网 络 。 
Huang 等 分 析 了 美国 1996 一 2006 年 公司 董事 网 络 结构 ,该 网 络 中 节点 是 由 公司 中 的 董事 
构成 ,两 位 董事 在 同一 个 公司 任职 则 表示 他 们 有 连接 关系 。Huang 等 人 认为 公司 董事 的 影 
响 力 取决 于 该 董事 手中 掌握 多 少 获取 公司 信息 的 渠道 ,提出 一 种 识别 公司 董事 影响 力 的 方 
法 。 其 方法 记 为 


Sh jrTj2"" 


T(i) = 站 一 (6-11) 
3 
j=1 
其 中 rw 表示 董事 7 所 在 公司 拥有 的 信息 量 , 即 该 公司 的 市 值 。d; 表示 董事 i 与 董事 j 之 间 
的 最 短路 径 ,r; 是 信息 在 传递 过 程 中 的 衰减 率 。Freeman 于 1977 年 在 研究 社会 网 络 时 提出 
介 数 指标 (Betweenness Centrality) ,该 指标 用 于 衡量 个 体 社会 地 位 的 参数 。 节 点 i 的 介 数 
含义 为 网 络 中 所 有 的 最 短路 径 之 中 经 过 节点 i 的 数量 , 记 为 
ns 
Ci = 之 (6-12) 
其 中 gs 表示 节点 s 到 节点 t 之 间 的 最 短路 径 数 ; ns 表示 节点 s 和 节点 + 之 间 经 过 节点 i 的 
最 短路 径 数 。 节 点 的 介 数 值 越 高 .这 个 节点 就 越 有 影响 力 , 即 这 个 节点 也 就 越 重 要 。 例 如 判 
断 社交 网 络 中 某 人 的 重要 程度 , 某 个 人 在 关系 网 络 中 类 似 于 “交际 花 ”, 长 袖 善 舞 , 能 够 与 各 
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色 人 和 群 打交道 ,拥有 人 脉 越 广泛 , 则 其 影响 范围 越 大 ,其 他 人 与 此 人 也 就 越 密 切 相 关 , 因 此 该 
人 也 就 越 重要 。Travencolo 等 人 提出 了 节点 可 达 性 指标 (Accessibility)。 可 达 性 指标 是 描 
述 节 点 在 自 避 随机 游 走 的 前 提 下 ,行驶 有 h 步 长 之 后 该 节点 能 够 访问 多 少 不 同 目标 节点 的 可 
能 性 ,具体 定义 为 

N a EN 

EG) —— DP ee (6-13) 

EpaG slogCpr Cs)) ,pidjsi) #0 
y (0,piljsi) =0 
E(i,0) =—— ji jo 
0 Bl) eer) 


d= 


其 中 pi(j ,让 表 示 从 i 点 出 发 到 j 点 的 可 能 性 ,hh 表示 步 长 ,pr(j, 丫 即 从 i 点 到 j 点 行驶 h 步 
的 不 同 路 径 数 与 总 的 得 到 的 不 同 路 径 数 之 比 。 这 里 2 是 指 除 i 以 外 的 所 有 节点 。 除 此 之 
外 , 当 随 机 游 走 遇 到 以 下 三 种 情况 时 将 会 停止 : 中游 走 达 到 所 定义 的 最 大 步 长 及 ; 四 游 走 
达到 一 个 点 ,而 该 点 的 度数 为 1, 即 无 法 再 行走 下 去 ; @ 游 走 无 法 再 进行 下 去 ,因为 所 有 与 该 
点 相 邻 的 点 都 已 经 被 访问 过 了 。Travencolo 等 人 为 了 完善 多 样 性 的 概念 ,提出 了 对 外 可 达 
性 和 对 内 可 达 性 两 个 指标 ,分 别 记 为 


(6-14) 





OA (0) 一 PE (6-15) 
AN 人 iD = PE 0 (6-16) 


N= 
前 者 指 在 行走 h 步 之 后 ,起 始点 i 达到 所 有 剩 下 点 的 可 能 性 ,后 者 指 从 每 个 点 出 发 行走 hh 步 
后 ,能 够 到 达 点 i 的 可 能 性 ,也 可 理解 为 到 达 频 率 。Travencolo 等 人 的 实验 结果 显示 ,处 于 
中 心 区 域 的 节点 有 和 较 高 的 对 外 可 达 性 ,可 以 被 近似 看 成 是 现实 中 的 “交流 区 ”, 而 处 于 网 络 边 
缘 的 节点 对 外 可 达 性 较 低 。 


6.4 社会 网 络 分 析 常 用 方法 


利用 社会 网 络 进行 相关 处 理 的 前 提 是 构建 一 个 合理 的 社会 网 络 。 虽 然 以 关系 作为 基本 
分 析 单 位 的 社会 网 络 分 析 (Social Network Analysis) 已 经 在 社会 学 ,教育 学 ,心理 学 与 经 济 
学 等 诸多 学 科 和 领域 得 到 了 广泛 研究 。 但 是 在 统计 学 和 计算 科学 领域 ,对 如 何 自动 抽取 文本 
中 社会 网 络 的 研究 并 不 是 很 多 。 而 现在 采用 的 方法 大 多 是 基于 两 个 实体 名 字 在 网 络 上 的 共 
现 特征 ,判断 两 个 实体 之 间 是 否 存 在 关系 则 是 通过 分 析 二 者 在 网 络 中 共 现 特征 的 值 是 否 达 
到 了 某 个 预 设 的 阀 值 。Harada 等 人 采用 这 种 方法 开发 了 一 个 系统 来 从 网 络 上 获取 人 与 人 
之 间 的 两 两 关系 ; Faloutsos 等 人 则 是 基于 人 们 之 间 的 共 现 特征 从 50 亿 网 页 中 抽取 了 一 个 
由 1.5 亿 人 组 成 的 社会 网 络 。A. McCallum 和 他 的 研究 小 组 则 提出 了 一 个 自动 抽取 用 户 间 
社会 网 络 的 系统 。 这 个 系统 从 电子 邮件 信息 中 识别 出 不 同 的 人 并 找到 他 们 的 主页 ,然后 把 
相关 信息 记录 在 一 个 通讯 短 中 ,最 后 再 通过 他 们 的 主页 信息 发 现 一 些 其 他 人 的 信息 ,这 样 在 
主页 的 主人 与 在 此 人 主页 中 发 现 的 人 名 之 间 建 立 链接 并 放 入 社会 网 络 。 正 在 开发 中 的 这 个 
系统 的 新 版 本 其 目标 是 要 发 现 整个 网 络 中 的 共 现 信息 。 
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还 有 一 些 研究 是 应 用 搜索 引擎 来 发 现 社 会 网 络 。20 世纪 中 期 ,H. Kautz 和 B. Selman 
开发 了 一 个 社会 网 络 抽取 系统 Referral Web, 这 个 系统 用 搜索 引擎 作为 工具 来 发 现 社会 网 
络 。P. Mika 开发 的 Flink 系统 实现 了 语义 网 群落 中 社会 网 络 的 在 线 抽取 与 可 视 化 。 其 实 
Flink 和 Referral Web 进行 网 络 挖掘 的 机 制 都 是 相同 的 ,主要 还 是 通过 共 现 特征 来 识别 实 
体 间 存在 的 关系 ,只 不 过 这 些 共 现 信息 是 通过 搜索 引擎 来 得 到 的 。 他 们 都 是 首先 把 两 个 人 
的 名 字 X 和 YY 作为 查询 词 输入 到 搜索 引擎 中 ,输入 形式 是 X ANDY, 如 果 X 和 了 之 间 存 
在 比较 强 的 关系 ,我 们 往往 能 够 得 到 更 多 能 实现 他 们 之 间 关 系 的 信息 ,例如 他 们 主页 之 间 的 
互相 引用 ,或 者 两 者 之 间 名 字 并 列 出 现 的 次 数 等 。 另 外 ,通过 搜索 引擎 来 度量 名 字 间 共 现 特 
征 的 系统 还 有 Matsuo 等 人 开发 的 POLYPHONET。 本 节 我 们 着 重 介绍 两 种 社会 网 络 抽取 
方法 。 


6.4.1 基于 命名 实体 检索 结果 的 社会 网 络 构建 


此 方法 主要 利用 待 检索 的 中 文人 名 在 搜索 引擎 上 返回 的 Snippet 进行 社会 网 络 构建 。 
这 里 的 Snippet 包括 检索 结果 的 标题 以 及 紧 随 的 片段 文本 。 社 会 关系 建立 在 至 少 两 个 人 物 
的 基础 上 ,所 以 本 方法 中 定义 有 效 Snippet 为 包含 至 少 两 个 不 同人 名 的 Snippet。 系 统 最 后 
的 聚 类 对 象 就 是 这 些 有 效 的 Snippet。 

以 检索 人 名 A 为 例 , 初 始 检索 返回 一 组 Snippet, 抽 取 每 个 Snippet 中 的 人 名 。 假 设 任 
何 两 个 人 名 共同 出 现在 某 个 Snippet 中 就 认为 两 人 具有 社会 关系 , 共 现 的 次 数 作为 这 种 关 
系 的 度量 。 从 而 可 以 对 出 现在 所 有 Snippet 中 的 人 名 构建 关系 矩阵 M、 和 矩阵 元 素 Mi 表示 
人 名 i 和 人 名 j 的 共 现 次 数 。 由 于 是 利用 人 名 A 的 社会 网 络 来 对 人 名 A 检索 得 到 的 有 效 
Snippet 进行 重 名 消解 ,因此 关系 矩阵 M 中 不 包含 人 名 A。 

限于 检索 一 个 人 物 获得 的 有 效 Snippet 数量 有 限 ,这 样 得 到 的 关系 矩阵 往往 会 比较 稀 
下 , 形 成 的 社会 网 络 图 中 有 很 多 的 孤立 子 图 ,事实 上 有 些 子 图 之 间 在 真实 的 网 络 环境 中 又 是 
有 关系 的 。 例 如 图 6-2 中 的 人 名 A 初始 关系 图 。 本 方法 希望 能 借助 更 多 的 网 络 信息 ,对 孤 
立 子 图 进一步 扩展 ,来 丰富 初始 的 社会 关系 网 络 。 
































图 人 名 1 © 人 名 4 
社会 关 2 
初始 检索 入 从 系 获取 | fy ss @ 
~ 所 人 名 7 
© 目 
人 名 3 人 名 6 
人 名 Snippets 人 名 初始 消解 结果 


图 6-2 人 名 4 初始 关系 图 


拓展 方法 是 在 初始 关系 图 中 找 出 所 有 连通 子 图 ,然后 依次 在 每 个 子 图 中 选取 最 能 够 代 
表 该 子 图 的 节点 来 进行 拓展 检索 ,在 此 引入 带 权 度 (Weighted Degree) 来 衡量 扩展 节点 的 重 
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要 程度 。 带 权 度 即 为 与 该 节点 相连 接 的 所 有 边 的 权 值 之 和 。 这 是 基于 以 下 两 种 假设 : 

(1) 与 节点 相连 的 边 越 多 ,说 明 该 节点 在 这 个 网 络 中 交际 的 范围 越 广 ,影响 力 越 大 。 

(2) 边 上 的 权 值 越 大 ,说 明 该 节点 与 相连 节点 共 现 的 频率 越 大 ,二 者 的 关系 越 紧密 。 

利用 带 权 度 将 以 上 两 点 结合 起 来 ,可 以 采用 两 种 以 下 不 同 的 拓展 方式 。 

(1) 单 点 拓展 : 选取 子 图 带 权 度 最 大 的 一 个 节点 ; 

(2) 两 点 拓展 : 选取 子 图 中 带 权 度 最 大 的 两 个 节点 。 

假设 子 图 X 中 带 权 度 最 大 的 节点 名 为 人 名 B。 为 了 拓展 出 来 的 人 物 尽 量 都 和 初始 检 
索 的 人 名 A 有 关 , 每 次 拓展 检索 时 Query 都 包含 人 名 A, 例 如 对 子 图 X 扩展 时 ,检索 Query 
为 "人 名 B 人 名 A”]。 拓 ’ 展 检索 时 ,选取 除 人 名 A 和 人 名 B 外 至 少 包含 一 个 人 名 的 
Snippet。 将 拓展 得 到 的 所 有 Snippet 直接 加 入 初始 检索 到 的 Snippet 集合 中 ,采用 构建 关 
系 和 矩阵 M 的 方法 重新 构建 新 的 包含 更 多 人 名 的 关系 矩阵 M“ 。 显 然 ,M' 比 M 包含 更 多 的 人 
名 和 社会 关系 ,使 得 M 的 社会 关系 网 络 进一步 丰富 与 完善 。 

对 于 初始 社会 网 络 的 拓展 有 如 下 两 种 处 理 方法 。 

(1) 平均 拓展 。 和 矩阵 M 中 会 引入 很 多 初始 检索 中 不 包含 的 人 名 ,剔除 这 些 新 引入 的 人 
名 得 到 和 矩阵 M”。 在 M' 中 ,如 果 两 个 人 物 不 认识 (对 应 关系 数 为 0) ,但 同时 M' 中 有 很 多 人 同 
时 认识 他 们 , 则 可 以 利用 两 个 人 物 之 间 的 中 间 人 来 求 取 两 个 人 物 的 关系 数 。 平 均 拓 展 采用 
M 中 两 个 人 物 的 中 间 人 的 关系 数 平均 值 来 进行 更 新 。 例 如 ,MY 中 ,对 于 任意 两 个 人 名 a， 
ba 天 0 ,如 果 Mi 二 0, 但 M 中 存在 人 名 ma ,oz ,an 同时 满足 Ms 关 0 且 My 关 0, 则 更 
新 Ms, 为 

DY Msn t+ Mon,) 
We (6-17) 

这 样 更 新 得 到 的 新 矩阵 M' 将 拓展 M 中 人 名 之 间 的 关系 ,并 且 将 原来 没有 直接 相 邻 的 
节点 之 间 的 关系 数 进行 更 新 ,可 将 初始 图 中 不 连接 的 若干 子 图 连接 起 来 。 

(2) 最 大 拓展 。 考 虑 现实 世界 中 的 两 个 人 物 , 如 果 有 一 位 中 间 人 与 他 们 的 关系 都 非常 
密切 ,这 两 个 人 的 关系 就 应 该 很 密切 ; 如 果 此 时 还 有 一 位 和 这 两 个 人 虽然 认识 但 是 关系 很 
不 密切 的 中 间 人 ,也 不 应 该 使 得 这 两 个 人 的 关系 数 减 少 。 事 实 上 ,方法 (1) 中 取 平 均 的 方法 
可 能 存在 这 样 的 问题 ,这 里 利用 两 个 人 物 之 间 关 系 最 为 密切 的 两 个 人 来 进行 关系 数 更 新 。 
更 新 方法 类 似 于 方法 (1), 只 是 更 新 公式 变 为 
Mn Ms. 


站 5 (6-18) 


M,, = max 
i=1,2 ,0 


6.4.2 基于 内 容 分 析 的 社会 网 络 构建 


现在 构建 社会 网 络 所 采用 的 方法 大 多 是 基于 两 个 实体 名 字 在 网 络 上 的 共 现 特征 。 但 是 
共 现 状态 只 能 说 明 两 者 可 能 存在 关系 ,不 能 确定 二 者 是 否 有 直接 关系 ,更 不 能 给 出 具体 的 关 
系 描 述 , 因 而 有 学 者 提出 了 基于 内 容 的 关系 抽取 方法 ,很 好 地 弥补 了 这 一 点 。 此 方法 在 对 输 
人 文章 进行 分 词 标注 . 共 指 消解 等 预 处 理 之 后 ,通过 名 词 合并 及 主动 词 识别 ,得 到 存在 关系 
的 实体 之 间 的 关系 指向 和 关系 描述 ,最 后 通过 有 向 图 把 存在 关系 的 实体 进行 链接 ,最 终 形成 
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有 向 关系 网 络 。 这 样 不 仅 能 够 通过 对 一 个 新 闻 事件 的 分 析 得 到 对 事件 中 实体 之 间 的 关系 指 
向 ,更 能 根据 关系 图 中 每 个 点 的 出 度 、 入 度 确定 各 个 实体 在 事件 中 的 重要 程度 ,而 且 可 以 确 
定点 与 点 之 间 的 相对 关系 紧密 程度 ,并 给 出 比较 合理 的 点 与 点 之 间 关 系 的 描述 。 本 方法 的 
主要 贡献 如 下 : 

首先 ,本 方法 是 基于 文本 内 容 分 析 的 ,不 仅仅 依靠 实体 的 共 现 信息 ,而 且 得 到 的 社会 网 
络 更 加 可 靠 。 

其 次 ,本 方法 不 仅 局 限于 对 人 与 人 之 间 的 关系 进行 抽取 ,而 且 对 所 有 不 同 实体 之 间 的 关 
系 进 行 抽取 。 

最 后 ,本 方法 中 采用 有 向 图 对 社会 网 络 进行 可 视 化 表现 ,对 实体 之 间 关 系 的 描述 更 加 详 
细 。 有 向 图 中 不 仅仅 标注 出 实体 之 间 是 否 有 关系 ,而 且 标 注 出 实体 之 间 的 关系 指向 ,并 给 出 
了 实体 之 间 相 互 作用 关系 的 描述 词 。 

1. 方法 框架 

本 节 描 述 的 方法 的 整体 框架 如 下 : 对 于 输入 的 单个 文档 或 者 一 个 主题 的 相关 文档 集 
合 ,首先 进行 文档 预 处 理 ,主要 是 进行 分 词 .标注 以 及 命名 实体 的 指 代 消 解 。 然 后 把 经 过 预 
处 理 的 文档 根据 句 义 完整 性 进行 语 篇 划分 ,对 划分 之 后 的 各 个 话语 片段 再 进行 主动 词 及 其 
施 事 论 元 和 受 事 论 元 的 识别 ,然后 把 施 事 论 元 和 受 事 论 元 之 间 进 行 有 向 连接 ,并 进行 关系 动 
词 的 标注 ,这 个 关系 动词 即 此 话语 片段 的 主动 词 。 最 后 把 处 理 得 到 的 所 有 实体 关系 进行 合 
并 得 到 整个 事件 中 实体 间 的 关系 网 络 。 

2. 预 处 理 

为 了 进行 关系 抽取 ,首先 应 该 对 输入 的 文档 进行 预 处 理 , 这 包括 分 词 .标注 以 及 实体 的 
指 代 消解 。 在 分 词 .标注 过 程 中 ,使 用 中 科 院 计算 所 研制 的 基于 多 层 隐 马尔 科 夫 模型 的 汉语 
词法 分 析 系 统 (ICTCLAS) 对 输入 文档 进行 分 词 及 标注 。 而 在 指 代 消 解 部 分 ,为 了 保证 社会 
网 络 抽取 的 准确 性 和 系统 实现 的 简洁 性 ,使 用 了 两 种 方法 对 文中 出 现 的 普通 代词 和 零 代 词 
进行 了 有 针对 性 的 消解 。 

1) 命名 实体 识别 (Named Entity Recognition) 及 指 代 消 解 技术 

新 闻 信息 处 理 第 一 个 重要 的 方面 就 是 要 对 新 闻 进 行 命名 实体 识别 以 及 指 代词 的 消解 。 
因为 在 网 络 新 闻 5 大 要 素 中 有 3 个 要 素 属 于 命名 实体 的 范围 。 

命名 实体 识别 是 最 基础 的 信息 抽取 技术 ,也 是 机 器 翻译 、 信 息 检 索 、 问 答 系统 等 自然 语 
言 处 理应 用 领域 的 重要 基础 工具 。 一 般 来 说 ,常规 命名 实体 识别 的 任务 就 是 识别 出 文本 中 
的 人 名 、 地 名 、 机 构 名 ,事件 .数字 5 类 命名 实体 。 汉 语 命 名 实体 识别 最 初 是 从 单一 类 型 的 命 
名 实体 开始 研究 的 。 孙 茂松 等 人 最 早 进行 了 我 国人 名 的 识别 研究 ,主要 采用 了 统计 方法 ; 
郑 家 恒 和 Tan Hongye 等 人 也 以 统计 为 主 的 方法 进行 了 人 名 、 地 名 的 识别 ; 2001 年 , 张 艳 丽 
等 人 开始 采用 统计 与 规则 相 结 合 的 策略 进行 汉语 机 构 名 称 的 识别 。 在 5 类 命名 实体 中 , 事 
件 和 数量 表达 式 相 对 比较 容易 ,基本 采用 规则 的 方法 ,汉语 命名 实体 的 研究 主要 集中 在 人 
名 、 地 名 和 机 构 名 上 。 第 六 届 和 第 七 届 MUC 评测 会 议 上 .H. H. Chen 和 新 加 坡 肯特 岗 数 字 
实验 室 (Kent Ridge Digital Labs) 参 加 了 MUC-7 汉语 命名 实体 识别 任务 的 评测 。 

现在 对 命名 实体 识别 的 准确 度 已 经 很 高 ,也 有 不 少 开源 的 命名 实体 识别 算法 ,所 以 本 节 
不 再 研究 命名 实体 识别 ,而 是 把 重点 放 在 与 实体 有 关 的 指 代 消 解 方面 。 
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指 代 消 解 是 自然 语言 处 理 的 重要 内 容 ,在 信息 抽取 过 程 中 , 指 代 消 解 就 是 一 个 关键 的 问 
题 。 同 样 , 信 息 检索 ,文本 摘要 中 也 存在 大 量 需 要 消解 的 指 代 问 题 。 近 20 年 来 , 指 代 消解 受 
到 了 格外 的 关注 ,大 多 数 计算 模型 和 实现 技术 都 是 这 一 时 期 出 现 的 。1997 年 的 EACL 和 
1999 年 的 ACL 年 会 都 设立 了 指 代 消 解 的 专题 会 议 ,2001 年 的 Computational Linguistics 
学 报 还 出 了 指 代 消解 的 专辑 。 但 在 汉语 处 理 方面 , 指 代 问 题 的 研究 相对 较 少 。 

指 代 一 般 分 成 两 种 情况 : 回 指 和 共 指 。 所 谓 回 指 , 是 指 当前 的 指示 语 与 上 文 出 现 的 词 、 
短语 或 句子 ( 句 群 ) 存 在 密切 的 语义 关联 性 ; 共 指 则 主要 是 指 两 个 名 词 ( 包 括 代名词 .名词 短 
语 ) 指 向 真实 世界 中 的 同一 参照 物 。 回 指 和 共 指 的 消解 ,所 需 的 知识 和 消解 步骤 是 基本 一 致 
的 ,但 在 处 理 上 不 完全 相同 : 回 指 消解 是 要 根据 上 下 文 判断 指示 语 与 先行 语 之 间 是 否 有 关 
系 , 这 种 关系 可 以 是 上 下 位 关系 ,部 分 整体 关系 和 近 义 关系 ,当然 ,也 包括 等 价 关 系 。 共 指 消 
解 则 主要 考虑 等 价 关 系 。 

指 代 消解 首先 要 构造 先行 语 候选 集 , 然 后 再 从 候选 中 进行 多 选 一 选择 。 早 期 比较 著名 
的 方法 有 1997 年 的 朴素 Hobbs 算法 和 1983 年 前 后 提出 的 中 心理 论 。 但 是 无 论 是 朴素 
Hobbs 算法 还 是 中 心理 论 ,主要 都 是 作为 理论 模型 提出 的 ,在 实际 系统 上 很 少 直接 使 用 , 现 
已 实现 的 典型 的 技术 主要 有 基于 句法 的 方法 和 基于 语料库 的 方法 。 

基于 句法 的 指 代 消解 是 较 早 采用 的 方法 ,这 种 方法 试图 充分 利用 句法 层面 的 知识 ,并 以 
启发 式 的 方式 运用 到 指 代 消 解 中 。 比 较 典型 的 系统 是 1994 年 由 Lappin 和 Leass 提出 的 
RAP 算法 ,该 算法 用 于 识别 第 三 人 称 代 词 和 具有 反 身 特征 与 互 指 特征 的 先行 语 ,算法 主要 
使 用 了 句法 知识 。 它 先 通 过 模 文 法 分 析 ,再 通过 句法 知识 消解 指 代 。Lappin 和 Leass 提出 
的 算法 , 指 代 消解 准确 度 达 到 了 86%。 但 他 们 事先 通过 人 工 方 式 对 句子 进行 过 简化 处 理 ， 
同时 ,也 只 考虑 了 第 三 人 称 形式 。1998 年 Mitkov 提出 了 一 种 * 有 限 知识 ”的 指 代 消解 方法 ， 
该 方法 只 需要 进行 词性 标注 ,然后 利用 一 些 指示 符 计 算 先行 语 候选 的 突显 性 ,再 经 过 性 、 数 的 
一 致 性 检验 后 ,选取 较 高 值 的 先行 语 作 为 最 后 的 先行 语 。 测 试 结果 表明 ,成 功率 为 89.7%。 

另 一 种 指 代 消 解 的 方法 是 基于 语料库 的 方法 。 随 着 语料库 语言 学 的 发 展 。 基 于 语料库 
的 指 代 消 解 方法 也 相继 出 现 ,主要 有 统计 方法 、 统 计 机 器 学 习 方法 等 。 

Soon 等 采用 该 统计 框架 ,选用 决策 树 算法 进行 共 指 消解 ,在 MUC 评测 结果 首次 超过 
了 基于 知识 工程 的 共 指 消解 方法 ,随后 许多 研究 者 均 以 此 为 基础 进行 了 多 方面 的 研究 。 
VincentNg 等 人 在 这 个 框架 下 对 训练 实例 抽取 和 链接 算法 进行 了 改进 ,Strube 和 Yang 等 
人 提出 了 不 同 的 两 个 实体 以 及 匹配 特征 的 表示 方法 ,Florian 等 人 选用 了 最 大 焙 方 法 用 于 统 
计 共 指 消解 。 

汉语 指 代 / 共 指 消解 研究 起 步 较 晚 ,研究 主要 集中 在 人 称 代词 的 消解 ,主流 方法 为 基于 
句法 语义 结构 分 析 的 规则 方法 。 王 厚 峰 等 人 利用 聚 类 基本 知识 根据 人 称 代词 及 其 先行 语 在 
语义 块 中 可 能 的 语义 角色 .并 结合 局 部 焦点 法 ,给 出 了 汉语 人 称 代词 消解 的 基本 规则 和 优先 
性 规则 。 为 了 克服 知识 获取 瓶颈 问题 :他 又 提出 了 一 种 弱化 语言 知识 的 鲁 棒 性 人 称 代词 消 
解 方法 ,仅仅 用 到 了 单 复数 特征 .性 别 特征 和 语法 角色 特征 ,取得 了 满意 效果 。 王 晓 斌 提出 
了 一 种 以 请 篇 表达 理论 为 指导 的 汉语 人 称 代 词 的 指 代 消 解 方法 ,在 语 篇 表述 结构 的 构造 过 
程 中 实现 了 人 称 代 词 消 解 。 此 外 ,曹军 , 张 威 分 别 对 汉语 零 指 代 消 解 和 元 指 代 消 解 进行 了 研 
究 。 郎 君 尝试 采用 决策 树 算法 用 于 汉语 名 词 短 语 共 指 消解 ; 孔 祥 勇 采用 了 规则 消解 和 统计 
因子 消解 相 结 合 的 策略 ,用 于 汉语 共 指 消解 ; Zhou 运用 基于 转换 的 自动 学 习 方 法 ,用 于 
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ACE 中 汉语 实体 之 间 的 共 指 分 析 , 取 得 了 满意 的 效果 。 

指 代 消 解 是 一 项 重要 的 研究 ,同时 也 是 一 项 非常 困难 的 研究 。 到 目前 为 止 ,还 没有 较 好 
的 全 自动 的 指 代 消解 技术 和 方法 。 而 且 目 前 指 代 消解 研究 主要 依赖 于 基于 句法 语义 结构 分 
析 的 规则 方法 ,不 适合 实现 针对 非 受 限 大 规模 文本 的 信息 抽取 任务 。 因 此 ,基于 统计 学 习 方 
法 的 实体 指 代 消解 方法 有 待 深入 研究 。 

2) 零 指 代 消 解 

(1) 零 指 代 的 定义 。 

话语 中 提 及 某 个 事物 , 当 再 次 论 及 这 个 事物 的 时 候 会 采用 各 种 方式 来 进行 上 下 文 的 照 
应 ,这 就 是 回 指 (Anaphor)。 当 回 指 在 语 流 上 没有 任何 的 形式 体现 时 ,就 是 零 指 代 
(Zeroanaphor)。 像 一 般 的 共 指 一 样 , 零 指 代 也 可 以 分 为 两 种 : 一 种 是 先行 语 出 现在 零 指 代 
之 前 , 称 为 回 指 (Anaphoric); 另 一 种 是 先行 语 出 现在 零 指 代 之 后 , 称 为 后 指 (Cataphoric) 。 

下 面 是 零 指 代 的 几 个 例子 。 

Q@ 中 国 从 前 的 监狱 , 墙 上 大 抵 画 着 一 只 虎 头 ,所 以 叫 作 * 虎 头 牢 ”, 狱 门 就 建筑 在 虎口 
里 ,这 是 说 , 口 1 一 进去 , 口 2 是 很 难 再 出 来 的 。(《 释 放 四 题 》) 

@ ( 廖 医生 在 我 腿 上 歼 了 草药 , 拿 纱 布 强 了 。 又 拿 出 两 服 中 药 , 对 母亲 说 :“ 这 种 药 ,每 
天 前 三 次 ,两 天 后 再 来 换 药 。”) 母 亲 颤 声 问 :“ 雇 医生 , 口 多 少 钱 ?”(《 洁 白 的 木 檬 花 》) 

@ 母亲 高 兴 地 答应 了 , 口 1 拿 了 篮子 , 口 2 把 木 樟 花 全 摘 下 来 了 。 雇 大 夫 拿 秤 一 称 口 3， 
4 况 有 一 斤 。(《 洁 白 的 木 权 花 》) 

其 中 带 口 的 地 方 都 是 空 形式 ,但 却 有 语义 内 容 。 以 汉语 为 母语 的 人 能 够 很 容易 地 确定 ; 
@ 中 口 1、. 口 2 指称 的 是 “犯人 ”,@ 中 口 指 的 是 “诊治 和 拿 药 的 费用 ”,@ 中 口 1、 口 2 指 的 是 “ 母 
亲 ”, 口 3、 口 4 指 的 是 “ 木 樟 花 ”。 

说 到 零 指 代 , 人 们 往往 会 想到 一 连 串 相似 的 概念 : 省 略 、 隐 含 、 空 语 类 ,因为 它们 有 共同 
的 特点 ,在 句子 的 表层 结构 中 没有 语音 形式 而 有 语义 内 容 , 但 它们 的 所 指 各 有 不 同 。 按 沈阳 
的 解释 , 空 语 类 包括 3 种 类 型 : 移 位 型 、 隐 含 型 和 省 略 型 。 所 以 它 的 外 延 最 宽 , 涵 盖 了 省 略 
和 隐 含 。 隐 含 指 的 是 句子 中 由 于 句法 作用 而 出 现 的 “ 空 " 形 式 , 人 们 可 以 根据 语言 知识 理解 
它 的 语义 内 容 . 但 决 不 能 在 句子 的 表层 形式 中 补 出 它 , 它 是 “真空 ”, 因 此 , 隐 含 是 语言 系统 中 
的 问题 ; 省 略 与 它 不 同 , 它 是 话语 中 由 于 请 境 作用 而 出 现 的 “ 空 ” 形 式 , 人 们 往往 要 依赖 句子 
以 外 的 因素 ( 语 篇 ,情景 等 ) 才 能 将 该 空 形式 的 语义 内 容 找 回 ,需要 的 话 , 它 可 以 在 句子 的 表 
层 结构 中 补 出 来 , 它 是 “ 伪 空 ”。 省 略 离 不 开 语 境 ,因此 它 是 言语 中 的 问题 。 和 零 指 代 直接 相 
关 的 是 省 略 。 

(2) 零 指 代 的 类 型 。 

Q@ 就 零 指 代 本 身 在 句 中 的 位 置 及 职能 可 以 分 为 两 类 : 作 主 语 的 、 作 宾语 的 。 其 中 主语 
占 多 数 。 零 指 代 作 主语 的 大 约 占 93.4% ,而 作 宾语 仅 占 6. 6%。 

@ 就 零 指 代 本 身 的 属性 可 以 分 为 两 类 : 有 生命 的 ( 即 表 人 或 动物 的 ) 无 生命 的 。 其 中 
有 生命 的 零 指 代 占 多 数 。 据 统计 ,有 生命 的 零 指 代 大 约 占 88. 3%。 无 生命 的 零 指 代 则 占 
a 

@ 就 零 指 代 的 先行 词 的 位 置 可 以 分 为 3 类 : 先行 词 作 主 语 的 、 作 宾语 的 、 作 其 他 成 分 
的 。 eg 
行 词 为 其 他 成 分 (如 定语 或 状语 的 一 部 分 等 ) 的 最 少 , 仅 占 3. 2%。 
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@ 就 零 指 代 与 先行 词 的 距离 可 以 分 为 3 类: 相 邻 的 、 隔 句 的 、 远 距离 的 。 其 中 相 邻 的 包 
括 一 个 先行 词 带 有 多 个 同 指 的 零 指 代 . 但 相应 位 置 中 间 不 被 别 的 指称 成 分 隔 开 的 情况 。 如 : 
有 一 次 父亲 停 下 来 , 口 1 转 到 我 面前 , 口 2 作出 抱 我 的 姿势 , 口 3 又 做 个 抛 的 动作 ,然后 
4 扒手 指 表示 在 点 钱 .原来 他 要 把 我 当 豆 腐 卖 哄 ! (《 我 和 我 的 哑巴 父亲 》) 
1. 品 2.0D3、 口 4 是 处 于 主语 位 置 的 零 指 代 , 它 们 的 先行 词 都 是 “父亲 ”, 因 为 中 间 没 有 
出 现 别 的 主语 ,所 以 都 算是 相 邻 的 。 远 距离 的 是 零 指 代 和 先行 词 相隔 两 句 或 两 句 以 上 的 。 
在 这 3 种 类 型 中 , 相 邻 的 零 指 代 占 绝 大 多 数 , 约 占 95%, 隔 句 的 和 远 距 离 的 都 不 多 ,两 者 结 
合 起 来 才 占 5% ,所 以 我 们 选取 6 个 小 句 (当前 句 及 其 前 3 个 小 句 、 后 2 个 小 句 ) 作 为 信息 处 
理 的 句 组 长 度 。 

(3) 零 指 代 消解 的 相关 工作 。 

零 指 代 的 频繁 使 用 ,给 汉语 共 指 消解 提出 了 一 个 挑战 。 虽 然 性 、 数 等 属性 可 以 为 普通 的 
指 代 消 解 提供 思路 ,但 是 由 于 零 指 代 没有 提供 这 些 相 关 信 息 ,同时 识别 零 指 代 也 是 一 个 相当 
困难 的 工作 。 另 外 ,即使 识别 出 来 零 指 代 , 它 也 有 可 能 不 是 共 指 。 所 有 这 些 使 得 汉语 零 指 代 
消解 极其 困难 。 

零 指 代 在 语言 学 中 曾经 研究 过 ,但 是 计算 语言 学 中 只 有 一 小 部 分 工作 涉及 零 指 代 的 识 
别 和 消解 。Yeh 和 Chen 提出 了 一 种 基于 中 心理 论 的 零 指 代 消 解 方法 。 这 种 方法 是 使 用 一 
系列 的 手工 编写 规则 来 实现 零 指 代 的 识别 ,同样 ,在 消解 时 也 是 使 用 人 工 编写 规则 。 
Converse 假设 零 指 代 和 标准 的 解析 树 给 定 的 情况 下 ,使 用 Hobbs 算法 进行 零 指 代 消解 。 此 
系统 不 能 自动 识别 零 指 代 。 作 为 指 代 消 解 的 一 个 主要 问题 ,对 汉语 零 指 代 消 解 的 研究 并 不 
是 太 多 。 而 且 以 前 大 部 分 汉语 零 指 代 消 解 方法 ,在 识别 和 消解 过 程 中 大 多 使 用 规则 和 启发 
式 。 针 对 汉语 零 指 代 的 特点 ,有 学 者 分 析 了 零 指 代 在 语义 结构 中 与 其 他 语言 成 分 的 相互 关 
系 ,并 提出 在 这 种 关系 的 宏观 控制 下 ,利用 谓词 语义 进行 零 指 代 消 解 的 策略 。Shanheng 
Zhao 和 Hwee Tou 提出 了 一 种 基于 机 器 学 习 的 识别 和 消解 汉语 零 指 代 的 方法 。 他 们 自称 ， 
通过 两 组 可 计算 的 特征 识别 和 消解 过 程 都 能 自动 进行 ,是 至 今 为 止 完全 使 用 机 器 学 习 的 方 
法 实现 零 指 代 消 解 的 方法 。 

3) 基于 浅 层 分 析 与 机 器 学 习 的 汉语 零 指 代 消 解 

下 面 着 重 介绍 本 节 使 用 的 零 指 代 消 解 方法 。 为 了 解释 该 方法 , 先 对 文中 使 用 的 几 个 定 
义 进 行 解 释 。 

话语 片段 (Discoursesegment) : 根据 零 形 代词 所 在 句 与 先行 词 所 在 句 之 间 的 间隔 不 能 太 
远 , 选 取 6 个 小 句 (当前 句 及 其 前 3 个 小 句 、 后 2 个 小 句 ) 作 为 信息 处 理 的 句 组 长 度 ,这 样 的 

一 个 句 组 称 之 为 一 个 话语 片段 。 

主动 词 : 是 指 句 子 的 核心 动词 。 

逻辑 论 元 : 逻辑 论 元 是 指 动词 的 逻辑 配 价 中 的 配 价 成 分 , 它 相 当 于 谓词 逻辑 中 的 论 元 
(Argument), 即 动词 动作 所 涉及 的 客体 。 例 如 看 到 一 个 动词 “ 吃 ”, 必 然 要 问 “ 吃 ”的 主体 是 
谁 ,“ 吃 ”的 客体 又 是 什么 ,此 时 “ 吃 ” 的 主体 就 称 为 施 事 论 元 ,而 “ 吃 ” 的 客体 则 为 受 事 论 元 。 

逻辑 配 价 : 所 谓 逻 辑 配 价 .是 指 从 人 逻辑 语义 的 角度 来 考查 动词 的 配 价 问题 ,也 就 是 指 动 
词 的 逻辑 语义 配 价 。 它 研究 动词 在 逻辑 语义 层面 所 必须 联系 的 语义 论 元 , 换 句 话说 ,就 是 我 
们 在 理解 一 个 句子 的 语义 时 必 不 可 少 的 成 分 。 在 逻辑 配 价 中 不 存在 所 谓 的 三 价 四 价 甚至 六 
价 七 价 动词 ,动词 应 该 最 多 只 能 是 二 价 , 即 动词 动作 不 涉及 客体 是 一 价 , 只 有 施 事 论 元 。 其 



















































































第 6 章 社会 网 络 分 析 135 





他 动词 动作 涉及 客体 是 二 价 , 除 了 施 事 论 元 还 有 受 事 论 元 。 这 样 处 理会 有 以 下 4 方面 的 好 
处 : 首先 突出 了 施 事 和 受 事 的 特殊 地 位 。 可 以 这 么 说 ,典型 的 动作 动词 带 典型 原型 的 施 事 
和 受 事 ; 施 事 和 受 事 的 典型 程度 与 动词 的 典型 程度 正 相 关 。 也 正 是 从 这 个 角度 看 ,与 其 把 
论 元 划分 得 很 细 , 不 如 根据 动词 动作 性 来 划分 动词 ,这 样 动词 的 类 也 就 是 论 元 ( 施 事 和 受 事 ) 
的 类 。 其 次 ,把 动词 的 逻辑 论 元 限制 在 施 事 和 受 事 ,便于 确定 动词 的 逻辑 配 价 成 分 。 我 们 只 
须 考虑 最 简单 的 情况 , 即 如 果 一 个 动词 只 带 一 个 论 元 ,就 表达 了 一 个 相对 完整 的 命题 ,那么 
这 个 论 元 必定 是 施 事 。 如 果 一 个 动词 带 了 两 个 论 元 才能 表达 一 个 相对 完整 的 命题 ,那么 这 
两 个 论 元 必定 是 施 事 和 受 事 。 再 次 ,把 动词 的 逻辑 单元 限制 在 施 事 和 受 事 , 可 以 简化 动词 罗 
辑 配 价 的 框架 结构 。 便 于 操作 ,易于 计算 。 最 后 ,把 动词 的 逻辑 论 元 限制 在 施 事 和 受 事 , 既 
可 以 避免 确定 许多 名 词 短语 语义 角色 时 的 困难 ,又 可 以 做 到 句法 和 语义 的 同 构 对 应 ,使 动词 
配 价 研究 能 够 真正 为 自然 语言 理解 服务 。 
下 面 来 看 基于 浅 层 分 析 与 机 器 学 习 的 汉语 零 指 代 消 解 的 具体 步骤 。 
(1) 基于 主动 词 识别 ,对 话语 片段 进行 层次 分 析 。 主 动词 是 句子 的 核心 ,如 何 判断 句子 
的 核心 动词 ,是 正确 分 析 句 子 结构 和 层次 的 重要 步骤 。 但 是 ,在 汉语 文本 中 ,一 个 句子 中 有 
一 个 以 上 的 动词 很 普通 ,而 且 汉 语 动 词 没有 数 、 性 、 格 和 时 态 的 变化 ,用 语法 来 确定 哪个 是 主 
动词 非常 困难 。 因 此 本 文采 用 基于 动 宾语 义 搭配 的 方法 进行 汉语 主题 词 识别 。 该 方法 将 句 
子 中 的 动词 按 其 分 布 情况 分 成 了 3 类。 第 一 类 ,是 在 介词 框架 外 的 右 邻 不 为 “的 ”的 动词 
(WD); 第 二 类 ,是 在 介词 框架 外 的 右 邻 为 “的 ”的 动词 以 及 落选 的 左 邻 不 为 “的 ”的 动词 
(CW2); 第 三 类 ,是 在 介词 框架 内 的 动词 (WJ)。 只 有 右 邻 不 为 “的 ”的 动词 可 以 是 候选 主动 
词 。 所 以 确定 主动 词 有 两 个 步骤 : 首先 是 对 动词 进行 分 类 ,将 情况 简化 ,然后 根据 规则 确定 
出 主动 词 。 在 进行 动词 自动 分 类 以 前 ,首先 要 将 词 (主要 是 名 词 ) 进 行 合并 ,达到 同一 语法 块 
中 相 邻 词 的 词性 是 互 异 的 。 两 个 名 词 是 否 能 合并 , 主要 由 结合 关系 语义 场 决定 。 在 名 词 合 
并 方面 ,主要 考虑 以 下 几 种 常见 语法 形式 的 分 析 规 则 , 见 表 6-1。 
表 6-1 名 词 合并 规则 
规则 序号 规则 描述 
i 名 词 十 和 十 名 词 CN 十 HE 十 N) 
2 名 词 十 以 及 十 名 词 CN 十 以 及 十 N) 
3 名 词 十 的 十 名 词 (N 十 DE 十 N) 
4 名 词 十 和 十 名 词 十 的 十 名 词 (N 十 HE 十 N 十 DE 十 N) 
5 名 词 十 和 十 名 词 十 和 十 名 词 十 的 (N 十 HE 十 N 十 HE 十 N 十 DE) 
6 
Lh 
8 
9 





名 词 十 的 十 名 词 十 和 十 名 词 (N 十 DE 十 N 二 HE 十 N) 

名 词 十 的 十 名 词 十 和 十 名 词 十 的 (N 十 DE 十 N 十 HE 十 N 十 DE) 
动词 十 名 词 十 的 十 名 词 (V 十 N+DET+N) 

动词 十 名 词 十 名 词 (V 十 N 十 N) 


10 动词 十 的 十 名 词 十 名 词 (V 十 DE 十 N 十 N) 

a 名 词 十 名 词 (N 十 N) 

12 介词 十 名 词 十 名 词 (P 十 N 十 N) 

13 介词 十 名 词 十 的 十 名 词 (P 十 N 十 DE 十 N) 

14 介词 十 动词 十 的 十 名 词 十 名 词 (P 十 V 十 DE 十 N 十 N) 





15 介词 十 动词 十 名 词 十 名 词 (P 十 V 十 N 十 NN) 
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名 词 合 并 完成 之 后 ,进行 基于 规则 的 动词 自动 分 类 ,实现 流程 如 下 ( 自 左 向 右 扫描 I> 
待定 动词 指针 KK 一 D 。 
算法 输入 : V-RESET 


1. IF 句 尾 ,结束 . 
2. IF 当前 动词 为 介词 ,记录 介词 框架 左边 指针 PFLG, 返回 WRESET. 
3. IF 当前 词 为 搭配 词 ,取消 框架 右边 指针 , 置 PELG = 0, 返回 VRESET. 
注 . 介词 框架 外 的 动词 的 处 理 ( 包 括 没有 左边 界 的 PP). 
4. IF 右 邻 不 为 DE, 同时 右 右 邻 也 不 为 DE, 查 右 侧 有 无 PT, 执行 PT1-R 模块 . 
5. 亚 右 邻 为 PE 或 右 邻 为 rR, 同时 右 右 邻 为 DE, 查 右 侧 有 无 PT, 执行 PTR 模块 . 
IFFLG 标记 为 1, 同时 当前 词 为 PT, 待定 动词 取 岗 , 置 介词 框架 为 真 PFLG = I, ELSE 
IF 待定 动词 为 "上 " 字 类 ,执行 V-SX-RESET, 返回 V-RESET, ELSE 
待定 动词 取 W2, 返 回 VRESET. 
注 : 介词 框架 内 的 动词 的 处 理 (确定 P+N+V+N 中 的 动词 类 ) . 
FLG=1 表示 有 PT 或 N+N 结 构 ,FLG= 2 表示 句 尾 为 形容 词 . 
6. IF 左 邻 为 介词 或 左 侧 有 介词 嵌 套 结构 , 取 朵 ,返回 V-RESET. 
7. IF 左 侧 为 "把 "类 介词 
IE 右 邻 为 DE, 取 朵 , 置 FLG, PFLG = 0; 返回 V-RESET, ELSE 
查 待定 动词 与 左 邻 名 词 的 主 谓 关 系 . 
IF 成 功 , 取 朵 , 秆 了 LG, PFLG = 0, 返回 V-RESET, ELSE 
失败 取 由, 置 FLG,PFLG = 0, 返回 V-RESET. 
8. 查 右 侧 有 无 PT 执行 PT-R 模块 . 
9. IFFLG = 1, 取 朵 ,返回 V-RESET. 
10. IFFLG= 2, IF 左 侧 介 词 为 "对 "或 "用 " 字 类 , IF 形容 词 的 左 邻 为 名 词 
取 有 ,返回 VRESET, ELSE 
取 WD, 返回 VRESET, ELSE 
取 加 ,返回 V-RESET. 
11. IF 左 邻 为 名 词 , 左 左 邻 为 介词 , 查 待定 动词 与 左 邻 名 词 的 主 谓 关系 . 
IF 成 功 , 取 加 , 置 PFLG = 0, 返回 V-RESET, ELSE 
IF 待定 动词 为 "上 " 字 类 , 执行 WSX-RESET, 返回 V-RESET. 
12. IF 右 邻 为 DE 或 右 邻 为 DE, 取 W2, 和 FLG, PFLG = 0, 返回 VRESET, ELSE 
取 WD, 置 FLG, PFLG = 0, 返回 V-RESET, ELSE 
V-END-RESET 
13. PT-R. 
14. k 指 针 加 1. 
15. IF 句 尾 表示 右 侧 无 PT 或 N+ NN 结构, 结束 . 
16. IF 当前 词尾 动词 ,结束 . 
17. IF 当前 词 为 PT, 置 FLG = 1, 结束 . 
18. IF 当前 词 为 名 词 , 右 邻 也 为 名 词 , 置 FLG = 1, 结束. 
19. IF 句 尾 为 朵 , 置 FLG = 2, 结束 . 
PT= END-R 
PII-R 
20. IF 句 尾 
IF 句 尾 不 为 形容 词 且 右 邻 不 为 DE 
取 四 , 结束 ,ELSE 
取 有 2, 结 束 . 
21. IF 当前 词 为 动词 ,其 右 邻 不 为 DE 或 介词 , 取 四 ,结束 . 
22. IF 当前 词 为 搭配 词 , 取 由 , 置 PFLG = K 结束 . 
返回 PT1-R 
PT1 ~ END—R 
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V— SX— RESET 
23. IF 右 邻 为 DE, 右 右 邻 为 名 词 且 为 句 尾 , 取 色 , 殴 右 邻 DE 为 TR, 结束 . 
24. IF 右 邻 为 DE 或 ( 右 邻 为 PE 且 右 右 邻 为 名 词 ), 取 凤 , 置 FLG,PFLG= 0, 结 束 . 
25. 取 WD, 置 FLG,PFLG = 0, 结束. 
V— SX 一 END - RESET 


在 名 词 分 类 后 ,对 每 个 话语 片段 进行 主动 词 的 识别 。 首 先 按 照 动词 分 类 的 规则 进行 主 
动词 候选 过 滤 ,过 滤 得 到 的 动词 集合 作为 主动 词 候选 集合 。 然 后 根据 主动 词 识别 规则 进行 
识别 。 主 动词 识别 规则 见 表 6-2。 

在 得 到 主动 词 之 后 ,可 以 对 每 个 话语 片段 进行 层次 分 析 。 因 为 一 个 片段 一 般 由 一 系列 
小 句 组 成 ,小 句 和 小 名 之 间 一 般 为 惩戒 或 者 并 列 关系 ,一 般 不 共享 主动 词 。 所 以 ,主动 词 识 
别 主 要 针对 小 句 进行 ,然后 再 通过 小 句 之 间 的 关系 ,得 到 长 句 的 主动 词 及 层次 结构 。 当 然 也 
存在 特殊 情况 。 


表 6-2 主动 词 识别 规则 
小 句 中 有 两 个 候补 主动 词 的 情况 (P1,P2 代表 主动 词 候选 ) 
规则 序号 规则 表述 
1 IFP1 为 不 可 带 从 句 的 动词 ,P1 取 W2,P1 取 WD 
2 IFP1 为 “是 ”,P2 为 “有 ”,P1 取 WD,P2 取 W2 
3 IFP1 为 “有 ”,P2 为 “是 ”,P2 取 WD,P1 取 W2 
4 IFP1 右 邻 为 TA 或 其 左 邻 为 MA,P1 取 WD,P2 取 W2 
5 
6 
了 




















IFP2 右 邻 为 TA 或 其 左 邻 为 MA,P2 取 WD,P2 取 W2 
IFP1 为 “是 ?或 可 带 从 句 的 动词 ,P1 取 WD,P2 取 W2; 否则 P2 取 WD,P1l 取 W2 
IFP1 为 可 带 从 名 的 动词 且 对 宾语 无 选择 ,Pl 取 WD,P2 取 W2 
8 查 P2 与 宾语 名 词 的 搭配 关系 ,成 功 ,P2 取 WD,P1 取 W2; 失败 ,Pl 取 WD,P2 取 W2 
小 句 中 有 3 个 候补 主动 词 的 情况 (P1,P2,P3 代表 主动 词 候选 ,AA 为 标志 位 ) 
如 果 P1 为 不 可 带 从 句 的 动词 ,P1 取 W2, 置 AA 为 1; IFP2 为 不 可 带 从 句 的 动词 ,P2 取 W2, 置 
AA=AA+1,IFAA=1, 按 两 个 候补 主动 词 处 理 ; 如 果 AA 二 2, 则 PlP2 取 W2,P3 取 WD 
10 IFP1 为 可 带 从 句 的 动词 且 对 宾语 无 选择 ,P1 取 WD,P2P3 取 W2 
11 IFP2 为 可 带 从 名 的 动词 且 对 宾语 无 选择 ,P2 取 WD,P1P3 取 W2 
查 P1 与 宾语 名 词 的 搭配 关系 ,IF 失败 ,Pl 取 W2,AA=1; 查 P2 与 宾语 名 词 的 搭配 关系 ,IF 
失败 ,P2 取 W2,AA 二 AA 十 1; 查 P3 与 宾语 名 词 的 搭配 关系 ,IF 失败 ,P3 取 W2,AA 二 AA 十 
1; 如 果 AA 二 1, 则 按 两 个 候补 动词 处 理 ; 如 果 AA 一 2, 取 3 个 候补 动词 中 没有 被 置 成 W2 
的 动词 是 主动 词 





























例如 :“ 老 妇 人 见 [ 阿 弟 瞪 着 细 眼 凝 想 , 同 时 摄 着 头皮 ] ,知道 有 下 文 ……” 

一 般 情况 下 表示 “动作 十 感知 ”的 动词 (如 看 见 、 发 现 、 听 见 等 ) 的 管辖 区 域 可 以 是 跨 小 句 
的 ,分 析 层 次 时 应 该 单独 处 理 。 从 动词 与 后 续 小 句 的 语义 关联 可 以 确定 它们 的 层次 关系 , 例 
如 当 动 词 是 表示 “动作 十 感知 ”的 动词 .如 果 后 续 小 句 描写 心理 动作 或 有 “于 是 “不 禁 ”“ 忍 不 
住 ” 等 词 承 接 上 句 , 则 很 可 能 是 感知 动作 主题 作出 的 反应 ,因此 该 小 句 不 属于 前 句 动词 的 管 
辖 ,而 是 与 其 层次 相同 ; 当 后 续 小 句 的 动词 也 是 表示 “动作 十 感知 ”的 动词 时 , 则 该 小 句 也 不 
属于 前 面 动词 的 管辖 ,而 是 与 其 所 在 的 句子 并 列 ; 其 他 情况 ,尤其 是 描写 事物 性 状 的 小 句 ， 
属于 前 面 动词 的 管辖 的 倾向 性 很 大 。 本 书 对 这 种 情况 通过 考查 动词 的 辖区 内 小 句 的 结构 是 
否 一 致 ,作为 判断 主动 词 的 一 个 依据 。 
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因为 一 个 片段 一 般 是 由 一 系列 小 句 组 成 ,小 句 和 小 句 之 间 一 般 为 承接 或 者 并 列 关系 ,一 





般 不 共享 主动 词 ,所 以 ,主动 词 识别 主要 针对 小 句 进行 ,然后 再 通过 小 句 之 间 的 关系 ,得 到 长 
句 的 主动 词 及 层次 结构 。 
例如 :“ 老 妇 人 见 阿 弟 瞪 着 细 眼 凝 想 , 同 时 报 着 头皮 ,知道 有 下 文 ……?” 


分 析 第 1 个 小 句 , 有 3 个 候选 主动 词 “ 见 所 胜 着 交 凝 想 ”", 根 据 主 动词 识别 规则 必 见 ”可 
以 带 从 名 ,而 “ 睡 着 ”和 * 凝 想 ” 都 不 可 以 ,我们 取 * 见 ”为 主动 词 , 且 “ 见 ” 后 面 组 成 主 谓 结构 ,为 
其 从 名 ,从 层次 关系 上 从 句 属 于 * 见 ?的 子 层 。 主 句 的 结构 可 以 表示 为 N 十 WD 十 OPCOP 代 
表 宾 语 部 分 )。 分 析 完 主 句 之 后 分 析 从 句 的 结构 , 阿 弟 瞪 着 细 眼 凝 想 ，“ 瞪 着 细 眼 ?合并 之 后 
作为 状语 成 分 ,从 句 表示 为 N 十 AC 十 WD(AC 代表 状语 部 分 ) 。 

分 析 第 2 个 小 句 , 只 有 1 个 候选 词 “ 播 ", 取 作 主 动词 ,但 是 此 句 的 结构 不 同 于 前 句 的 主 
名 ,与 子 句 相似 ,所 以 与 子 句 处 于 同一 层次 ,属于 * 见 ”的 宾语 部 分 。 结 构 为 PT 十 V 十 N 
(PT 为 时 助词 ) 。 

分 析 第 3 个 小 句 , 有 2 个 候选 主动 词 “ 知 道 ” 和 * 有 ”, 根 据 主动 词 识别 规则 ,知道 "可 
以 带 从 句 ,而 “有 ?不 可 以 ,我 们 取 * 知 道 ? 为 主动 词 , 且 * 知 道 ” 后 面 为 谓 宾 结 构 , 可 以 看 作 
是 其 从 名 ,从 层次 关系 上 从 句 属于 “知道 的 子 层 。 主 句 结构 为 (V 十 OP), 从 句 结构 为 
(V 十 N) 。 

根据 上 面 的 分 析 得 到 整个 句子 的 层次 结构 如 下 ( 见 图 6-3): 

S 





sl s2 
N wD OP wD OP 
| 
老 妇 人 见 知道 有 下 文 
sll sl2 wD N 
| | 
阿 弟 瞳 着 细 眼 凝 想 同时 接着 头皮 有 下 文 


阿 弟 用 着 细 眼 凝 想 同时 ” 返 着 头皮 
图 6-3 话语 片段 层次 分 析 结 果 示 例 
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[ 老 妇 人 见 卫 [ 阿 弟 瞪 着 细 眼 凝 想 , 同 时 摄 着 头皮 ,了 [知道 ][ 有 下 文 …… 卫 

(2) 基于 动词 逻辑 配 价 及 逻辑 论 元 识别 进行 零 指 代 识 别 。 这 里 所 谓 提取 逮 辑 论 元 指 的 
是 两 个 方面 : 一 方面 是 该 动词 能 否 带 受 事 论 元 , 另 一 方面 是 该 动词 能 带 什么 样 的 受 事 论 元 
和 施 事 论 元 。 

首先 判断 动词 的 逻辑 配 价 。 现 在 研究 动词 配 价 的 机 构 很 多 ,例如 北京 大 学 的 基于 配 价 
的 汉语 语义 词典 。 但 是 现在 还 没有 公开 发 表 的 配 价 词典 ,所 以 我 们 配 价 是 通过 《现代 汉语 词 
典 》 中 对 动词 释义 和 应 用 举例 来 判断 动词 的 价 。 同 时 ,我 们 认为 存在 受 事 论 元 的 动词 一 般 是 
有 施 事 论 元 的 ,所 以 只 考虑 动词 是 否 能 带 受 事 论 元 ,如 果 可 以 ,那么 我 们 就 把 动词 定义 为 二 
价 动词 。 

例如 ,安排 一 有 条 理 、 分 先后 地 处 理 ( 事 物 )、 安 置 (人 员 ) 一 工作 .一 生活 、 一 他 当 统 计 员 。 
“安排 ?这 个 词 可 以 带 有 受 事 论 元 ,定义 其 价 为 2。 

论 元 识别 : 经 过 前 面 提 到 的 名 词 合 并 ,基本 上 所 有 的 小 句 都 成 为 一 个 简单 句 , 使 得 论 元 
的 识别 变 得 非常 容易 。 

规则 1: 如 果 动 词 前 为 名 词 (包括 合并 后 的 名 词 短 语 ) 或 者 代词 , 则 把 此 词 作为 动词 的 施 


事 论 元 。 
规则 2: 如 果 动 词 后 为 名 词 (包括 合并 后 的 名 词 短 语 ) 或 者 代词 , 则 把 此 词 作为 动词 的 受 
事 论 元 。 


根据 上 面 的 分 析 , 零 指 代 识 别 可 以 看 作 是 动词 的 馆 辑 论 元 识别 。 给 每 个 必须 带 论 元 的 
动词 找到 相应 的 施 事 和 受 事 论 元 ,如 果 默 认 , 则 认为 此 处 为 零 指 代 。 

仍 以 上 例 中 的 句子 为 例 ,分 析 过 程 如 下 : 

第 1 小 名 中.“ 见 ” 为 二 价 动词 ,在 此 片断 中 ,存在 主语 “ 老 妇 人 ”, 并 且 有 宾语 从 名“ 阿 弟 
瞪 着 细 眼 凝 想 , 同 时 摄 着 头皮 "作为 其 受 事 论 元 ,所 以 不 缺少 论 元 ,从 句 中 * 凝 想 ” 为 一 价 动 
词 ,存在 主语 “ 阿 弟 ”, 所 以 不 缺少 论 元 。 第 2 小 名 中 ,“ 拯 "为 二 价 动词 ,存在 受 事 论 元 “ 头 
皮 ”, 缺 少 施 事 论 元 。 第 3 小 句 中 ,“ 知 道 "为 二 价 动词 ,存在 受 事 论 元 "有 下 文 ”, 缺 少 施 事 论 
元 。 从 名 中 “有 ”为 二 价 , 存 在 受 事 论 元 “下文”, 缺 少 施 事 论 元 。 所 以 得 到 所 有 的 缺少 论 元 。 
我 们 也 得 到 了 句子 中 的 零 形 代词 如 下 : 老 妇 人 见 阿 弟 瞪 着 细 眼 凝 想 ,同时 $1 报 着 头皮 ,$2 
知道 %3 有 下 文 …… 其 中 81,82,83 即 表示 零 形 代词 。 

(3) 用 机 器 学 习 的 方法 进行 零 指 代 的 消解 。 

在 零 指 代 消 解 方面 ,采用 决策 树 (C4. 5) 的 方法 训练 分 类 器 进行 零 形 代 词 消解 。 所 使 用 
的 特征 见 表 6-3。 在 表 6-3 的 特征 描述 中 ,ZP 代表 零 形 代 词 , NP 代表 候选 先行 代词 。 在 进 
行 零 指 代 消解 之 前 ,我 们 从 话语 片断 中 获得 所 有 的 候选 先行 词 ,通过 过 滤 规 则 进行 初步 过 
滤 ,去除 不 可 能 的 候选 先行 词 。 候 选 先行 词 的 过 滤 规 则 如 下 : 

中 ZP 和 NP 在 句子 中 处 于 并 列 的 位 置 ,它们 之 间 不 存在 共 指 关系 。 

例如 : [公司 ] 决定 $1 和 [清华 大 学 了 一 起 在 多 媒体 应 用 技术 领域 $2 展开 多 方面 
合作 。 

在 这 个 句子 中 ,短语 2 和 ZP$1 处 于 并 列 的 位 置 ,因而 它们 之 间 不 存在 共 指 关系 。 

@P 的 出 现 位 置 在 NN 首次 出 现 的 位 置 之 前 。 
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公司 开会 决定 将 50% 的 股份 转让 给 ST 中 川 。 


[公司 ] 开会 决定 #1 将 50% 的 股份 转让 给 [ST 中 川 J]?。 

在 这 个 句子 中 ,ZP81 的 出 现 位 置 在 NP2 首次 出 现 位 置 之 前 ,因而 它们 之 间 不 存在 共 指 
关系 。 
经 过 简单 的 先行 词 过 滤 之 后 ,我 们 得 到 了 每 个 零 形 代词 的 比较 合理 的 候选 代词 集合 。 
我 们 用 机 器 学 习 的 方法 判断 每 个 候选 先行 词 与 零 形 代词 之 间 的 关系 ,把 每 个 NP 候选 和 ZP 
看 作 一 个 候选 对 ,通过 分 类 器 判断 它们 之 间 存 在 共 指 关系 ,如 果 存 在 , 则 把 NP 看 作 ZP 的 先 
行 词 ,如 果 不 存在 , 则 把 后 面 的 NP 与 ZP 看 作 候选 对 ,直至 找到 一 个 ZP 的 先行 词 ,或 者 没 
有 NP 候选 存在 时 停止 。 零 指 代 消解 系统 的 具体 特征 定义 见 表 6-3。 


表 6-3 汉语 零 指 代 消解 特征 定义 















































序号 特 征 特征 描述 特征 定义 
1 | zp_Position 人 0 一 5( 前 面 我 们 定义 6 个 小 句 为 一 个 片段 ) 
2 | NP_Position eit itn 0 一 5( 前 面 我 们 定义 6 个 小 句 为 一 个 片段 ) 
| “| 零 指 代 和 候选 指 代词 所 在 小 条 
3 ZP_Pdistance 之 间 跨 小 句 数 0 一 4 
4 ZP_s_clause | ZP 所 在 的 小 句 是 否 为 复合 句 如 果 ZP 所 在 小 句 为 复合 句 取 1 否则 取 0 
5 NP_s_clause | NP 所 在 的 小 句 是 否 为 复合 句 如 果 NP 所 在 小 句 为 复合 句 取 1 否则 取 0 
6 | Same_Frame | 两 句 中 动词 配 价 框架 相同 相同 为 1, 不 相同 为 一 1, 无 法 判断 为 0 
7 | Zp_Sex 零 指 代 的 性 别 男性 为 Male, 女 性 为 Female, 无 法 判断 为 null 
8 | NP_Sex 候选 先行 代词 的 性 别 男性 为 Male, 女 性 为 Female, 无 法 判断 为 null 
零 指 代 和 候选 指 代词 的 性 别 ,一 致 为 1, 不 一 
Same 8 中 一 
| 致 为 一 1 ,无 法 判断 为 0 
10 | zp Role 零 指 代 的 角色 零 指 代 的 角色 , 施 事 为 1, 受 事 为 一 1, 无 法 判 
断 为 0 
候选 先行 代词 的 角色 , 施 事 为 1, 受 事 为 一 1， 
11 | NP_Role 选 先行 代词 
_Rol 候选 先行 代词 的 角色 无 法 判断 为 0 
零 指 代 和 候选 指 代词 的 角色 ,一 致 为 1, 不 一 
2 | same_Role = 
| 致 为 1, 无 法 判断 为 0 
13 | ZP_S_PL 零 指 代 的 单 复数 单数 为 Single, 复 数 为 Plus, 无 法 判断 为 null 
14 | NP_S_PL 候选 先行 代词 的 单 复 数 单数 为 Single, 复 数 为 Plus, 无 法 判断 为 null 
_ 零 指 代 和 候选 指 代词 的 单 复数 ,一 致 为 1, 不 
us 一 致 为 一 1, 无 法 判断 为 0 


表 6- 








4) 其 他 指 代 消解 
对 于 其 他 类 型 的 指 代词 ,利用 一 种 简单 的 基于 规则 的 方法 进行 指 代 消 解 。 其 使 用 的 规 
则 主要 包括 过 滤 集 合 和 优选 集合 两 个 部 分 。 前 者 将 不 存在 共 指 关系 的 指 代词 P 和 指 代 实 
体 N 组 成 的 P 一 N 对 过 滤 掉 .后 者 对 可 能 存在 共 指 关系 的 P 一 N 对 进行 打分 。 具 体 规 则 见 


4。 
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表 6-4 指 代 消 解 规则 





过 滤 规则 
规则 序号 规则 描述 
1 P 和 N 在 句子 中 处 于 并 列 位 置 
2 PP 的 出 现 位 置 在 N 首次 出 现 的 位 置 之 前 
3 已 和 N 同时 出 现在 一 个 小 句 中 
优选 规则 
规则 序号 规则 描述 
1 车 N1 出 现 频 率 高 于 N2, 则 P 一 N1 得 分 高 于 P 一 N2 
车 N1 和 PP 的 距离 小 于 N2 和 P 的 距离 , 则 P 一 N1 得 分 高 于 P 一 N2 
3 当 出 现 “ 宣 布 “ 说 "等 动词 时 ,该 动词 的 主语 N 往往 是 本 句 中 PP 的 指 代 实 体 
4 当 P 和 NN 都 在 句 中 作 主语 或 宾语 时 , 共 指 的 可 能 性 更 大 


利用 上 述 规则 进行 过 滤 打 分 之 后 ,使 用 一 个 消解 度 公式 计算 每 个 P 一 N 对 的 消解 度 : 
SCP,N) = DaR, (P,N) x [IRs (P,N) (6-19) 


在 式 (6-19) 中 ,P 代表 代词 ; N 代表 实体 (先行 词 ); Ry 表示 过 滤 规 则 ; R， 表示 优选 规则 ; 4 
表示 第 i 条 优选 规则 的 权 值 ; S 表示 P 一 NN 对 的 消解 度 。Ry 值 为 0 或 1, 即 表示 该 共 指 关系 
是 否 应 该 被 过 滤 掉 。S 值 越 大 说 明 书 一 N 对 越 有 可 能 存在 共 指 关系 。 

(1) 语 篇 划分 。 话 语 片断 的 划分 ,决定 了 文本 自然 语言 处 理 过 程 的 准确 性 。 在 划分 之 
前 ,对 话语 片断 都 要 给 定 一 个 合适 的 量 , 它 既 要 保证 语言 分 析 需 要 的 足够 信息 ,又 要 适合 计 
算 机 的 操作 及 存储 空间 的 开销 。 通 过 分 析 , 本 书 使 用 了 基于 语文 完整 性 划分 语 篇 的 方法 : 
因为 一 个 语义 完整 的 话语 片断 必然 存在 主动 词 及 其 必要 论 元 ,所 以 最 初 以 每 个 小 句 为 单位 
进行 分 析 ; 如 果 小 句 中 存在 主动 词 和 相应 的 论 元 , 则 把 此 小 名 作为 一 个 单独 的 话语 片断 进 
行 后 续 处 理 ; 如 果 此 小 句 中 缺少 任何 元 素 ,那么 考虑 加 入 其 后 紧邻 的 小 句 , 并 进行 同样 的 主 
动词 及 相应 论 元 的 分 析 , 直 到 这 个 处 理 句 组 中 存在 主动 词 及 必要 论 元 为 止 ,然后 把 这 个 句 组 
当 作 一 个 话语 片段 进行 后 续 处 理 。 

(2) 关系 抽取 。 对 于 每 个 话语 片断 ,进行 主动 词 及 其 逻辑 论 元 识别 ,方法 与 零 指 代 消解 
中 相同 。 在 识别 主动 词 及 其 论 元 之 后 , 即 完成 了 对 这 个 话语 片断 中 存在 关系 的 判断 , 接 下 来 
主要 是 看 这 些 关 系 涉 及 的 是 否 为 命名 实体 ,这 主要 是 看 主动 词 的 论 元 是 否 都 为 命名 实体 或 
者 都 包含 命名 实体 的 成 分 。 如 果 是 , 则 在 关系 图 中 把 二 者 进行 有 向 连接 ,箭头 由 施 事 论 元 指 
向 受 事 论 元 ,同时 把 该 主动 词 作为 此 关系 的 描述 标注 于 连 线 的 上 方 。 整 篇 文档 中 所 有 的 话 
语 片断 分 析 完成 之 后 进行 合并 去 重 , 即 生成 整 篇 文档 中 所 有 实体 间 的 有 向 关系 网 络 。 下 面 
举例 说 明 ,对 于 一 篇 新 闻 文档 ,新 闻 内 容 如 下 : 

题目 : 穆 巴 拉克 称 允许 加 沙 居 民 进 入 埃及 购买 必需 品 。 

内 容 : 2008 年 1 月 23 日 ,上 万 巴勒斯坦 民众 通过 被 推断 的 边境 墙 进 入 埃及 境内 。 

x 以 色 列 称 埃及 应 负责 解决 加 沙 地 带 边境 民众 骚乱 。 

x 巴勒斯坦 民众 涌 入 埃及 抢购 生活 用 品 。 

# 联合 国安 理会 召开 紧急 会 议 讨 论 加 沙 局 势 。 

据 法 新 社 报道 ,埃及 总 统称 巴 拉 克 今日 称 , 他 允许 巴勒斯坦 人 离开 加 沙 ,前 往 埃 及 境内 
寻找 生活 必需 品 ,前 提 是 他 们 不 得 携带 武器 。 
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穆 巴 拉克 对 开罗 媒体 说 :“ 我 告诉 安全 部 队 对 前 往 我 国境 内 的 加 沙 居民 予以 放行 ,并 允 
许 他 们 返回 加 沙 ,只 要 他 们 不 携带 武器 或 其 他 非法 物品 。” 
我 们 进行 社会 网 络 分 析 得 到 的 关系 图 如 图 6-4 所 示 。 


埃及 /ns 境内 /n/ns 加 沙 /ns 








离开 /V 





巴勒斯坦 /ns 境内 /n/ns CD 巴勒斯坦 hns 境 内 /nmns 
I 


加 沙 /ns 境内 /nns 
允许 V 
加 小 /ns 局 势 /n/ns 
穆 巴 拉克 /nr 


六 
应 V 负 责 必 解决 es 
联合 国安 理会 /nt 





Cn 人 ns 
以 色 列 ns 加 沙 /ms 地 带 m 边 境 m 民 众 mn 颈 乱 /nims 


图 6-4 对 举例 中 新 闻 文档 分 析 得 到 的 社会 网 络 关系 图 


6.5 社会 网 络 分 析 的 安全 应 用 


社会 网 络 分 析 在 网 络 信息 内 容 安全 保障 中 具有 重要 的 作用 。 在 本 节 中 ,将 介绍 社会 网 
络 分 析 在 网 络 信息 内 容 安全 研究 中 的 实际 应 用 案例 。 


6.5.1 社团 挖掘 和 话题 监控 的 互动 模型 研究 


社团 的 概念 来 源 于 社会 网 络 。 通 常 , 社 会 网 络 被 认为 是 一 种 典型 的 复杂 网 络 , 它 由 社会 
实体 (如 人 、 机 构 等 ) 和 实体 之 间 的 关系 组 成 。 社 团 挖掘 (Community Mining,CM) 旨 在 发 现 
社会 网 络 中 在 某 些 方面 具有 相似 特点 (如 有 共同 的 兴趣 .话题 ) 的 实体 组 成 的 相对 独立 和 封 
闭 的 团体 ( 即 社团 ) 。 话 题 监控 ,又 称 话题 识别 与 跟踪 ,目前 的 研究 也 只 局 限 在 文本 内 容 
变化 的 识别 上 ,只 在 网 络 新 闻 上 小 范围 的 应 用 外 ,并 未 在 海量 数据 (如 整个 社会 网 络 ) 中 
应 用 。 

互联 网 是 当代 社会 网 络 最 有 特色 的 载体 , 它 大 大 加 深 了 社团 的 复杂 性 、 隐 项 性 和 动态 
性 ,对 已 有 的 社团 挖掘 技术 提出 了 新 的 挑战 ; 同时 ,话题 的 产生 和 散布 有 了 更 强大 的 载体 ， 
这 对 已 有 的 话题 监控 技术 也 提出 了 新 的 挑战 。 目 前 社团 挖掘 和 话题 监控 的 研究 基本 是 各 自 
独立 进行 的 。 本 节 内 容 充分 考虑 了 社团 和 话题 两 者 之 间 的 密切 关系 ,例如 具有 类 似 模型 、 互 
为 对 方 特征 、 互 为 对 方 因果 ,以 及 社团 为 话题 传播 的 载体 等 ,提出 了 新 的 社团 挖掘 和 话题 监 
控 的 互动 模型 ,使 这 两 种 技术 更 适 于 在 互联 网 环境 下 的 应 用 。 
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1. 研究 现状 和 相关 工作 

社会 网 络 和 社团 挖掘 的 研究 一 般 都 采用 图 作为 它们 的 数学 模型 。 社 团 是 社会 网 络 中 满 
足 一 定 条 件 ( 称 为 社团 条 件 ) 的 一 部 分 ,可 以 用 社会 网 络 的 子 图 来 表示 社团 。 社 团 挖 掘 的 任 
务 就 是 发 现 社会 网 络 大 图 中 满足 社团 条 件 的 子 图 。 因 此 ,社团 挖掘 问题 可 以 归结 为 子 图 挖 
掘 以 及 搜索 问题 。 目 前 的 社团 挖掘 算法 可 以 归纳 为 3 大 类 : 

。 基于 链接 分 析 的 算法 ,以 HITS 算法 为 代表 ; 

。 基于 图 论 的 方法 ,以 最 大 流 算 法 为 代表 ; 

。 基于 聚 类 的 方法 ,以 GN 算法 为 代表 。 

话题 识别 与 跟踪 目前 使 用 最 普遍 的 算法 步骤 大 致 如 下 (以 输入 一 个 新 闻 报 道 序列 di， 
ds，… 为 例 )。 

(1) 首先 进行 初始 化 ,将 第 1 个 报道 di, 归 为 话题 4。 

(2) 假设 算法 已 经 处 理 完 前 面 i 一 1 个 报道 ,并 且 已 经 发 现 了 上 个 话题 , 记 为 41,12，…， 
,那么 处 理 第 i 个 报道 d; 的 方法 如 下 。 

Q@ 计算 报道 d; 与 每 个 话题 的 相似 度 ,例如 用 sim(di,6) 表 示 报 道 di; 话题 (j= 二 1,2,…， 
i 一 1) 的 相似 度 。 

@ 将 计算 出 来 的 相似 度 sim(4di,4;) 分 别 与 预先 没 定 的 两 个 阐 值 TH 和 TH 做 比较 。 

。 若 sim(di,4y) 二 TH, 则 报道 d; 与 话题 与 无 关 ; 

。 sim(di,4y) 宇 THs, 则 报道 di 与 话题 1; 相关 ,将 d; 归 为 41); 

。THI<sim(di,4;) 达 TH,, 则 报道 di 与 话题 4 之 间 的 关系 不 能 确定 。 

(3) 反复 采用 上 面 的 方法 ,直到 处 理 完 所 有 报道 。 

目前 的 各 种 话题 检测 与 跟踪 算法 大 体 是 上 述 算法 的 变 体 ,不 同 之 处 主要 集中 在 话题 的 
定义 、 向 量 空 间 模型 以 及 数据 类 型 等 方面 。 另 外 ,还 有 少数 研究 者 引入 支持 向 量 机 、 最 大 炉 、 
核 回 归 等 其 他 机 器 学 习 方法 ,但 都 没有 取得 显著 的 效果 。 

严格 说 来 ,目前 还 没有 明确 提出 将 两 者 结合 起 来 的 相关 工作 ,不 过 出 现 了 少量 粗浅 的 研 
究 。 有 的 学 者 研究 在 不 同时 期 采用 相同 的 主题 进行 社团 挖掘 ,然后 对 比 挖掘 结果 ,新 结果 中 
的 新 内 容 就 视 为 那个 时 期 的 一 个 话题 。 也 有 一 些 学 者 运用 社 群 图 和 和 矩阵 法 对 网 络 社会 群体 
进行 了 分 析 , 概 括 出 BBS 社团 的 基本 特征 ,并 对 社团 中 成 员 地 位 的 形成 ,意见 领袖 的 特点 和 
群体 内 部 人 际 交往 的 特征 进行 了 探讨 。 

2. 社团 挖掘 和 话题 监控 结合 的 基本 思想 

不 同 于 已 有 的 研究 ,很 多 学 者 认为 社团 和 话题 之 间 具 有 密切 的 关系 。 

(1) 具有 类 似 模 型 。 一 个 社团 是 多 个 相似 实体 凝聚 的 结果 ,一 个 话题 是 多 个 相似 议论 
(网 络 文档 汇集 的 中 心思 想 ,因此 两 者 都 与 采用 相似 性 比较 ,关联 性 推理 和 聚 类 算法 的 模型 
相关 。 

(2) 互 为 对 方 特征 。 一 方面 ,特定 社团 往往 具有 特定 的 代表 性 的 话题 ; 另 一 方面 ,有 
了 共同 话题 的 社会 人 员 会 形成 新 的 社团 。 一 个 社团 可 以 被 一 组 特定 话题 完全 定义 ,一 个 话 
题 也 可 以 被 一 组 特定 社团 清楚 刻画 。 

(3) 互 为 对 方 因果 。 一 方面 ,话题 演变 会 导致 社团 的 聚 散 和 兴 训 ,往往 是 社团 变化 的 原 
因 , 社 团 变化 是 话题 演变 的 表象 ; 另 一 方面 ,社团 变化 导致 新 话题 的 出 现 和 旧 话 题 的 消亡 ， 
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是 话题 演变 的 助 推力 。 

(4) 社团 为 话题 的 载体 。 话 题 的 流通 、 传 播 是 基于 社团 进行 的 ,并 具有 一 定 的 规律 。 例 
如 往往 先 在 某 个 社团 内 部 传播 ,导致 内 部 激荡 ,达到 一 定 程度 ,扩展 到 邻近 社团 ; 然后 进入 
新 的 循环 ,在 该 邻近 社团 内 部 传播 ,再 进入 新 的 社团 。 

因此 ,社团 挖掘 和 话题 监控 可 以 结合 在 一 起 研究 ,社团 和 话题 可 以 相互 定义 。 

社团 是 具有 共同 话题 的 社会 实体 组 成 的 集合 。 即 无 论 一 些 社会 实体 之 间 存 在 多 么 密切 
的 外 在 联系 ,如 果 没 有 共同 的 话题 ,都 被 认为 没有 组 成 社团 。 话 题 是 在 一 个 (或 多 个 ) 社 团 中 
流行 的 内 容 , 而 不 是 流行 在 网 页 或 新 闻 报 道中 的 内 容 。 如 果 这 些 网 页 或 报道 没有 形成 社团 ， 
那么 无 论 某 个 内 容 在 它们 之 中 如 何 流 行 ,都 被 认为 没有 形成 话题 。 社 团 和 话题 都 是 动态 
的 生命 体 , 都 有 从 诞生 到 发 展 到 消亡 的 完整 生命 过 程 。 因 此 ,类 似 话 题 的 发 现 和 跟踪 , 社 
团 挖 掘 中 还 包括 社团 跟踪 的 研究 ; 其 次 ,社团 和 话题 的 动态 演变 是 相互 影响 ,相互 交 
织 的 。 

从 本 质 上 讲 , 话 题 和 社团 都 是 聚 类 的 结果 ,可 以 设计 出 发 现 它们 的 通用 模型 。 此 外 ,两 
者 随时 间 变 化 的 演变 模型 也 非常 相似 ,图 6-5 所 示 为 以 话题 为 例 的 示意 图 。 





























自 b a 时 间 


~ 


图 6-5 话题 和 社团 的 通用 演变 模型 

如 图 6-5 所 示 ,在 一 个 互联 网 社区 中 ,每 个 时 刻 都 存在 许多 话题 (或 社团 ), 随 着 时 间 变 
化 ,话题 (或 社团 ) 也 可 能 变化 。 图 中 每 个 圆 点 表示 一 个 话题 (或 社团 ) ,每 条 虚线 表示 横向 关 
系 , 每 条 实 线 表示 纵向 关系 。 

3. 社团 挖掘 和 话题 监控 的 互动 模型 

最 初 ,互联 网 上 有 许多 个 体 ,同时 有 许多 言论 ; 然后 逐渐 地 个 体 之 间 有 了 关系 ,形成 了 
社团 ,同时 言论 之 间 有 了 共同 点 ,形成 了 话题 。 在 该 过 程 中 ,社团 和 话题 是 相互 影响 的 ,静态 
互动 模型 可 以 形式 化 地 刻画 在 某 个 时 刻 发 生 的 此 过 程 中 。 图 6-6 描述 了 个 体 、 社 团 、 话 题 以 
及 言论 之 间 的 关系 。 
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社团 C OWC CtoH 话题 有 
| CtoO HtoC 

















个 体 P HtoP 言论 0 
6-6 个 体 概念 和 函数 的 示意 图 


下 面 是 对 其 中 记号 的 一 些 解释 。 

(1) 个 体 在 互联 网 上 发 帖 产 生 言论 ,该 过 程 用 函数 PtoO(Personto Opinion) 表 示 ,满足 

性 质 1: V pi,ps， 如 果 pi1 关 pz 那么 PtoO(p1) 关 PtoO( pz)。 

(2) 言论 聚集 产生 话题 ,该 过 程 用 函数 cluso 表示 , 即 及 二 cluso()。 每 个 言论 都 属于 一 
个 或 多 个 话题 ,该 映射 关系 用 函数 OtoH(Opinion to Huati) 表示。 每 个 话题 包含 一 个 或 多 
个 言论 ,用 函数 HtoO(Huati to Opinion) 表 示 。 满 足 

性 质 2: 10|>>|H|。 

(3) 个 体 聚 集 产 生 社 团 , 该 过 程 用 函数 clusp 表示 , 即 C= clusp(P)。 每 个 个 体 都 属于 
一 个 或 多 个 社团 ,这 个 映射 关系 用 函数 PtoC(Person to Community) 表 示 。 每 个 社团 包含 
一 个 或 多 个 言论 ,用 函数 CtoP(Community to Person) 表示 ,满足 

性 质 3: |P|>>|C|。 

(4) 每 个 社团 都 有 感 兴趣 的 话题 ,用 函数 CtoH(Community to Huati) 表 示 ; 反之 ,每 个 
话题 可 能 有 多 个 社团 感 兴趣 ,用 函数 HtoC(Huati to Community) 表 示 。 

另外 存在 如 下 一 些 间接 关系 。 

(1) 个 体 与 话题 的 关系 ,个 体 先 产生 言论 ,然后 这 些 言论 属于 某 些 话题 。 该 映射 关系 用 
函数 PtoH 表示 ,满足 

性 质 4: VPEP,PtoH(p) = WU, OtoH(o). 


(Pp) 
(2) 言论 与 社团 的 关系 ,言论 属于 某 个 个 体 ,进一步 属于 个 体 所 在 的 社团 。 该 映射 关系 
用 函数 OtoC 表示 ,满足 以 下 几 点 。 
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性 质 5: YoEO,OtoC(o) 王 PtoC(COtoP(o) ) 。 

下 面 的 两 个 性 质 可 以 描述 个 体 、. 社 团 .话题 之 间 的 关系 。 

性 质 6: VY pi,p:EP, 如 果 PtoH(p1) 守 PtoH(pz) ,那么 PtoCCp) 门 PtoC(Cpz) 天 OO， 

或 者 说 P; 和 Ps 很 可 能 都 属于 某 个 (或 某 些 ) 话 题 。 

性 质 7: Vo1,0;E€0, 如 果 OtoC(o1) 守 OtoC(os), 那 么 OtoH(o01) 门 OtoH(02) 关 人 O， 

或 者 说 o 和 os 很 可 能 都 属于 某 个 (或 某 些 ) 话 题 。 

性 质 1 可 以 用 一 个 二 分 图 来 示意 ,如 图 6-7 所 示 , 即 如 果 个 体 集 和 话题 集 之 间接 近 一 个 
完全 二 分 图 ,那么 这 个 个 体 集 就 可 能 是 一 个 社团 。 类 似 地 ,根据 性 质 2, 如 果 言 论 集 与 社团 
集 也 存在 这 样 的 二 分 图 ,那么 这 个 言论 集 就 可 能 是 一 个 话题 。 











社团 话题 
6-7 ”社团 挖掘 和 话题 监控 的 二 分 图 模型 


如 图 6-7 所 示 ,社团 成 员 为 一 个 点 集 ,两 个 点 集 形成 一 个 (近似 ) 完 全 二 分 图 。 另 外 , 社 
团 成 员 之 间 具 有 相似 性 ,可 以 利用 这 个 特性 挖掘 社团 和 话题 。 

下 面 利用 性 质 1 来 设计 社团 挖掘 的 算法 , 它 等 价 于 下 面 的 数学 问题 。 

问题 1: 已 知 个 体 集 已 和 函数 PtoO、OtoH ,求解 函数 PtoC。 

相应 算法 如 下 所 示 。 

算法 1: 社团 挖掘 算法 

For i 二 1 to| 了 | ,遍历 集合 p, Vp;:EP; 

根据 性 质 4 计算 PtoH(p;) 得 到 p; 的 话题 集 HH;; 

For j 二 1 to i 一 1。 遍 历 已 有 的 Hj; ,每 个 与 H; 比较 ; 

PtoC (P;)=PtoC(P;) UPtoC(P,) 

End if 

End for 

If PtoC(P;)A 人 then 
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建立 一 个 新 社团 c, 且 PtoC(Pi) 关 {c} 

End if 

End for 

类 似 地 ,可 以 利用 性 质 7 来 设计 话题 识别 的 算法 , 它 等 价 于 下 面 的 数学 问题 。 

问题 2: 已 知 言论 集 o 和 函数 OtoP 、PtoC ,求解 函数 OtoH。 相 应 算法 如 下 所 示 。 

算法 2: 话题 识别 算法 

For i 二 1 to 10| ,遍历 集合 o,VoEO; 

根据 性 质 5 计算 OtoC(oi) ,得 到 o; 的 社团 集 Ci; 

Forj = 1 to ;一 1, 遍 历 已 有 的 Ci ,每 个 与 C; 比较 ; 

If Ci 与 C; 近似 then 

OtoH(o0;) = OtoH(o0;) U OtoH(o;) 

End if 

End for 

If OtoH(o0;)A GO then 

建立 一 个 新 话题 h, 且 OtoH(o0i) 关 {hi} 

End if 

End for 

在 静态 模型 中 增加 时 间 维 就 可 以 得 到 社团 演变 和 话题 演变 的 动态 互动 模型 , 即 把 上 面 
讨论 的 各 个 概念 ,例如 P.O.C 和 瑟 都 放 入 一 个 事件 空间 来 考虑 ,那么 它们 都 是 动态 变化 
的 。 特 别 地 ,社团 跟踪 和 话题 跟踪 的 任务 就 是 找 出 不 同时 刻 的 社团 .话题 之 间 的 关系 ,模型 
如 图 6-8 所 示 。 


有 


时 间 CtoH2 


HtoC2 
























2 
CForward | 。 HForward 
CBackward HBackward 

Hl - 





社团 话题 
图 6-8 社团 演变 和 话题 演变 动态 互动 模型 图 
社团 挖掘 和 话题 监控 分 别 是 Web 信息 挖掘 和 文本 信息 研究 领域 的 研究 热点 ,一 直 是 各 
自 独立 研究 的 。 目 前 社团 挖掘 算法 几乎 完全 基于 图 结构 ,没有 考虑 图 中 节点 和 边 的 语义 ; 
而 话题 监控 则 几乎 完全 从 语义 出 发 ,没有 考虑 到 发 言 者 之 间 存 在 的 拓扑 结构 。 本 节 所 提出 
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的 方法 首次 将 两 者 结合 起 来 研究 ,形式 化 地 说 明了 社团 .话题 以 及 个 体 之 间 的 关系 ,创建 了 
社团 挖掘 和 话题 发 现 的 静态 互动 模型 ,在 此 基础 上 设计 了 社团 挖掘 和 话题 识别 算法 ; 同时 
创建 了 社团 演变 的 动态 互动 模型 ,在 此 基础 上 设计 了 社团 跟踪 算法 。 互 动 模型 的 研究 ,使 社 
团 挖 掘 和 话题 监控 技术 能 够 共同 挖掘 以 互联 网 为 载体 的 复杂 社会 网 络 。 


6.5.2 不 同 实体 间 关 系 倾向 性 分 析 


如 何 借助 某 些 资源 自动 分 析 实 体 间 的 关系 倾向 .分 析 两 个 实体 间 的 关系 定位 是 对 立 还 
是 统一 关系 、 各 个 实体 对 某 个 问题 的 意见 是 支持 还 是 反对 ,对 社会 各 方面 都 有 比较 大 的 意 
义 。 在 商业 领域 中 ,通过 对 实体 间 关 系 倾向 的 分 析 , 能 够 为 企业 进行 市 场 分 析 提 供 更 多 有 价 
值 的 信息 ; 在 管理 领域 ,政府 与 情 分 析 系统 能 够 帮助 领导 者 更 快 地 了 解 群众 对 各 类 政策 措 
施 的 反馈 意见 ; 在 决策 方面 ,利用 实体 之 间 的 关系 倾向 分 析 能 够 了 解 各 个 实体 对 某 一 事件 
所 持 的 态度 是 否 一 致 。 另 外 ,在 自然 语言 处 理 领 域 ,通过 对 实体 间 关 系 倾向 的 分 析 也 可 以 为 
文本 过 滤 .自动 文摘 等 研究 工作 提供 新 的 思路 和 新 的 手段 。 

虽然 社会 网 络 抽取 已 经 得 到 一 定 的 发 展 ,但 是 还 没有 人 对 社会 关系 进行 更 深层 次 的 分 
析 。 因 而 本 文 基于 社会 网 络 抽取 ,提出 了 实体 间 关 系 倾向 分 析 , 主 要 来 分 析 两 个 实体 间 的 关 
系 定位 是 对 立 的 还 是 统一 的 ,各 个 实体 对 某 个 问题 的 意见 是 支持 的 还 是 反对 的 ,这 类 问题 在 
社会 安全 领域 一 直 是 个 热点 问题 。 

近年 来 ,有 不 少 研究 工作 针对 多 媒体 信息 中 的 情感 分 析 , 但 是 很 少 有 工作 是 针对 文本 对 
象 。 文 本 信息 是 一 种 使 用 最 广泛 的 媒体 介质 ,可 以 从 很 多 信息 源 获得 ,例如 书本 、 报 纸 、 网 
页 、E-mail 等 。 文 本 信息 不 仅 使 用 广泛 ,而且 饱含 感情 。 通 过 自然 语言 处 理 的 相关 技术 ,可 
以 获得 文本 中 反映 的 情感 。 现 在 大 多 数 研 究 主 要 集中 在 对 整 篇 文本 的 情感 倾向 性 进行 分 
析 , 在 文章 和 词汇 的 情感 倾向 分 析 方 面 有 一 定 的 研究 基础 ,但 是 几乎 没有 人 借助 于 词汇 的 情 
感 倾向 来 分 析 实 体 间 关系 的 倾向 。 因 为 这 涉及 如 何 获得 实体 之 间 关 系 的 准确 描述 ,因而 本 
文 尝试 性 提出 了 基于 社会 网 络 抽取 的 实体 间 关 系 倾向 分 析 , 目 的 是 更 深层 次 地 挖掘 文本 内 
容 ,使 得 社会 网 络 抽取 更 加 具有 现实 意义 。 本 书 主要 定义 了 3 种 关系 倾向 , 即 对 立 “ 统 一 ” 
“中 立 ”。 另 外 ,使 用 新 闻 语 料 作为 研究 对 象 ,是 因为 新 闻 可 以 客观 反映 各 种 事实 及 事实 关 
系 , 而 且 其 语言 比较 规范 ,因而 把 新 闻 用 作 研 究 对 象 对 研究 结果 统计 更 加 容易 且 准确 。 新 闻 
文档 中 对 某 个 事件 中 实体 之 间 的 关系 通常 体现 在 联系 动词 上 .而 不 是 用 描述 性 词语 “好 ”不 
好 "之 类 的 词 来 主观 地 描述 实体 之 间 的 意见 ,所 以 本 文 使 用 社会 网 络 中 联系 实体 关系 的 主动 
词 作 为 分 析 依据 ,对 新 闻 中 实体 的 关系 倾向 进行 分 析 。 

方法 框架 为 : 首先 利用 命名 实体 识别 .话语 片断 分 割 .主动 词 分 析 等 手段 获得 一 个 社会 
网 络 , 然 后 对 网 络 中 的 关系 描述 进行 基于 词典 的 情感 倾向 分 析 , 从 而 得 到 各 个 实体 之 间 的 关 
系 是 对 立 还 是 联合 。 

通过 社会 网 络 的 构建 ,已 经 得 到 了 一 篇 文档 的 关系 图 。 它 是 由 命名 实体 、 关 系 指向 、 关 
系 描述 3 部 分 组 成 的 。 下 面 根据 关系 图 中 对 实体 间 关 系 描述 的 情感 分 析 来 得 到 实体 间 的 关 
系 倾向 分 析 。 

首先 对 网 络 中 的 关系 描述 进行 基于 词典 的 倾向 分 析 , 这 里 使 用 知 网 HowNet 的 “情感 
分 析 用 词语 集 ” 作 为 基准 词典 。 如 果 关 系 动词 在 词典 中 能 够 找到 ,那么 直接 根据 其 情感 分 类 
进行 判断 ; 如 果 词 典 中 不 存在 ,那么 需要 根据 知 网 提供 的 语义 相似 度 和 语义 相关 场 等 功能 
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找到 相似 的 词语 ,或 者 直接 根据 同义词 词典 找到 相似 词语 ,然后 再 进行 判断 。 此 处 使 用 同 义 
词 词典 。 最 终 无 法 在 情感 分 析 用 词语 集中 找到 的 词 , 定 其 情感 倾向 为 中 性 。 

得 到 关系 描述 的 情感 倾向 之 后 ,需要 最 终 确 定 实 体 之 间 的 关系 倾向 。 如 果实 体 之 间 只 
有 一 个 关系 描述 ,那么 这 个 关系 描述 的 情感 倾向 就 是 实体 对 之 间 的 关系 倾向 。 如 果实 体 之 
间 存 在 多 个 实体 描述 , 则 需要 根据 关系 描述 的 主体 方向 来 确定 两 个 实体 之 间 的 关系 倾向 。 
即 , 如 果实 体 关系 之 间 的 描述 大 多 数 为 对 立 , 则 关系 为 对 立 , 反 之 亦 然 。 

对 6.4.2 小 节 中 的 新 闻 文 章 进行 分 析 , 得 到 关系 分 类 之 后 的 结果 如 表 6-5、 表 6-6 所 
示 , 其 中 表 6-6 中 ,O 表示 “对 立 ”,C 代表 “同意 ”,N 代表 中 立 , 义 表示 两 个 实体 之 间 没 有 

表 6-5 新 闻 中 关系 倾向 统计 表 (1) 





Relationshiporientation( 关 系 倾向 ) Numberofrelationships( 关 系数 量 ) 
Consistent( 同 意 ) 4 
Opposite( 反 对 ) 3 
Neutral( 中 立 ) 4 


表 6-6 新 闻 中 关系 倾向 统计 表 (2) 


























Relationshiporientation Entity( patient) 命名 实体 
(关系 倾向 ) 埃及 | 加 沙 | 穆 巴 拉克 | 联合 国安 理会 | 以色列 | 巴勒斯坦 | 开罗 
埃及 兴 | 如 4 Xx Xx x Xx 
加 沙 N N x xX XxX XxX xX 
穆 巴 拉克 久 | Xx Xx Xx C x 
Entity(agent) | 联合 国安 理会 | X | ( xX Xx Xx x x 
以 色 列 0O|x xX xX XxX XxX xX 
巴勒斯坦 0O,O| N x xX xX x 
开罗 XxX|x Xx Xx Xx x Xx 


























本 例 仅仅 以 单一 文章 为 例 对 关系 倾向 进行 分 析 , 借 助 于 对 相关 主题 关系 的 抽取 及 分 析 ， 
其 结果 必 将 更 加 准确 。 


6.5.3 中 文 新 闻 文 档 自动 文摘 


新 闻 事 件 相关 文档 摘要 表 属 于 自动 文摘 的 范畴 ,但 是 与 普通 意义 的 自动 文摘 又 有 所 不 
同 ,普通 的 自动 文摘 处 理 的 对 象 非常 广泛 ,在 本 文中 仅 以 新 闻 报道 为 处 理 对 象 , 既 借鉴 了 普 
通 的 文摘 生成 方法 ,同时 也 兼顾 了 新 闻 报道 本 身 所 具有 的 特点 。 

自动 文摘 按照 是 否 采用 基于 语义 的 分 析 手 段 主 要 可 分 为 两 类 : 基于 统计 的 机 械 文摘 和 
基于 意义 的 理解 文摘 。 基 于 统计 的 机 械 文摘 ,其 核心 思想 是 : 根据 特殊 的 统计 特征 ,计算 每 
个 语言 单元 (通常 是 句子 ) 的 重要 度 , 最 后 将 最 重要 的 句子 抽取 出 来 ,形成 文摘 。 而 基于 意义 
的 理解 文摘 , 则 是 用 句法 和 语义 知识 等 自然 语言 处 理 相关 技术 和 领域 知识 ,对 文章 的 内 容 在 
理解 的 基础 上 提取 文摘 。 基 于 意义 的 理解 文摘 与 基于 统计 的 机 械 文摘 相 比 ,其 明显 区 别 在 
于 对 知识 的 利用 , 它 不 仅 利 用 语言 学 知识 获取 文章 的 语言 结构 ,而 且 利 用 相关 领域 知识 进行 
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判断 和 推理 ,生成 的 文摘 质量 较 好 。 但 由 于 基于 意义 的 方法 受 限于 具体 的 领域 , 即 移植 性 较 
差 , 很 难 把 适用 于 某 个 领域 的 理解 文摘 系统 推广 到 另 一 领域 。 男 外 ,基于 意义 的 方法 还 需要 
表达 和 组 织 各 种 领域 和 背景 知识 ,这 常常 会 导致 巨大 的 工作 量 ,迄今 为 止 进展 甚 徽 。 所 以 现 
在 主流 的 方法 仍然 是 通过 抽取 重要 句子 来 形成 文档 自动 文摘 。 虽然 这 种 方法 不 是 最 好 的 ， 
但 是 现在 无 论 是 从 效率 还 是 速度 来 看 ,仍然 比较 有 效 。 基 于 句子 抽取 的 文摘 方法 需要 处 理 
以 下 4 个 问题 。 

第 1 个 问题 是 如 何 对 候选 句 (最 初 为 文中 所 有 句子 ) 的 重要 性 进行 排序 。 现 在 最 常见 的 
方法 是 用 向 量 空间 的 方法 计算 组 成 句子 的 词语 的 重要 性 ,或 者 是 通过 机 器 学 习 的 方法 。 本 
小 节 中 ,针对 候选 名 的 排序 采用 关键 命名 实体 结合 实体 间 关 系 的 方法 进行 。 关 键 命名 实体 
是 指 与 文章 主题 最 相关 的 命名 实体 。 

第 2 个 问题 是 如 何 对 候选 重要 句 进行 去 重 。 一 般 方法 是 把 每 个 句子 用 向 量 空间 模型 表 
示 , 句 子 之 间 的 相似 度 用 两 个 特征 矢量 之 间 的 夹 角 余 弦 表 示 。 这 样 计算 相似 度 会 把 修饰 成 
分 计算 在 内 ,使 得 判断 结果 不 够 准确 。 因 而 在 本 小 节 中 ,我 们 把 每 个 句子 去 掉 修饰 成 分 得 到 
其 主干 ,主要 由 主动 词 及 逻辑 论 元 组 成 。 这 样 计 算 相似 性 既 简 单 又 有 效 。 

第 3 个 问题 是 如 何 排序 输出 重要 句子 ,形成 比较 好 的 文档 。 一 般 情 况 下 , 单 文档 的 文摘 
句子 可 以 直接 根据 句子 在 原文 中 的 位 置 输出 。 但 是 ,对 于 多 文档 来 说 ,不 可 能 从 一 个 文档 中 
找到 所 有 的 文摘 句 , 所 以 不 能 简单 地 按照 单 文档 文摘 的 方法 进行 输出 。 我 们 提出 了 一 种 基 
于 基准 文档 的 排序 方法 。 

第 4 个 问题 是 如 何 对 文摘 质量 进行 评价 。 学 术 界 对 自动 摘要 提出 了 许多 评价 方法 , 概 
括 起 来 ,可 以 分 为 两 大 类 方法 : 内 部 评价 和 外 部 评价 方法 。 内 部 评价 方法 是 就 一 个 独立 的 
摘要 系统 ,以 某 些 性 能 标准 对 其 本 身 进 行 评 价 , 即 通过 一 系列 的 参数 直接 分 析 摘 要 质量 的 好 
坏 。 这 可 以 借助 于 用 户 对 摘要 的 连贯 程度 以 及 包含 多 少 原文 章 关 键 信息 来 判断 ,也 可 以 通 
过 比较 自动 摘要 与 “标准 "摘要 的 相似 程度 来 判断 。 外 部 评价 方法 通过 分 析 自 动 摘 要 对 其 他 
任务 的 完成 质量 的 影响 来 评价 , 即 在 一 组 系统 中 ,在 摘要 系统 和 其 他 系统 ,如 检索 系统 、 问 题 
回答 系统 等 相互 作用 的 情形 下 ,通过 考查 摘要 系统 与 外 部 环境 之 间 的 联系 进行 评价 。 因 为 
对 中 文 自动 文摘 评测 方法 研究 并 不 多 ,所 以 没有 像 ROUGE 那样 的 评测 系统 可 以 用 ,所 以 
本 小 节 采 用 内 部 方法 对 实验 结果 进行 评测 。 内 部 评价 的 一 个 关键 问题 是 标准 文摘 的 制定 ， 
为 了 减少 标准 文摘 的 主观 性 和 不 确定 性 ,我 们 采用 统计 模型 ,通过 多 个 专家 分 别 生 成 文摘 ， 
而 不 是 只 用 一 个 专家 生成 的 文摘 。 主 要 通过 对 比 机 器 摘要 和 专家 所 做 的 标准 文摘 来 评 
价 所 提 摘 要 方法 的 性 能 。 这 个 标准 文摘 是 将 几 个 专家 对 一 篇 文章 手工 做 出 的 摘要 进行 
综合 平均 ,将 得 到 的 结果 视 为 标准 摘要 。 综 合 平均 是 指 将 各 专家 做 出 的 摘要 进行 比较 ， 
从 完全 性 .重复 性 和 信息 量 等 多 个 角度 综合 考虑 ,从 而 形成 一 篇 标准 摘要 ,也 叫 目标 
摘要 。 

1. 方法 主要 框架 

给 定 一 个 单 文档 或 者 关于 某 个 主题 的 一 组 相关 文档 ,进行 文摘 的 方法 如 图 6-9 所 示 。 

(1) 系统 首先 对 输入 文本 进行 分 词 标 注 、 指 代 消 解 等 预 处 理 ; 

(2) 然后 利用 机 器 学 习 的 方法 得 到 文中 所 有 的 关键 命名 实体 ; 
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文档 集合 
a 
1 
文本 处 理 
主要 命名 实体 基于 内 容 的 关 
识别 系 网 络 抽取 


句子 排序 、 去 重 


根据 压缩 比例 抽 
取 文摘 


6-9 ”基于 关键 词 抽取 的 中 文 新 闻 文档 自动 文摘 方法 的 实现 流程 





(3) 进行 话语 片断 划分 ; 

(4) 利用 基于 规则 的 方法 分 析 文 章 内 容 , 得 到 文档 中 命名 实体 之 间 的 关系 网 络 和 核 
心 词 ; 

(5) 根据 句子 特征 、 实 体 特征 .FNE、 关 系 网 络 、 主 动词 等 综合 信息 ,对 文中 话语 片断 句 
子 进行 去 重 、 排 序 ; 

(6) 最 后 根据 摘要 的 压缩 比例 对 文档 中 片断 进行 抽取 ; 

(7) 生成 并 输出 相应 文摘 。 

文本 预 处 理 的 方法 与 前 一 部 分 相同 ,此 处 我 们 着 重 强 调 关 键 命名 实体 的 识别 以 及 文摘 
的 构成 。 

2. 基于 学 习 的 关键 命名 实体 识别 

关键 命名 实体 是 一 篇 文章 中 与 主题 最 相关 的 命名 实体 ,关键 命名 实体 的 概念 对 文档 理 
解 具有 很 重要 的 意义 ,特别 是 新 闻 文 档 。 因 为 新 闻 文 档 的 特点 : 它 的 五 要 素 基 本 上 都 属于 
命名 实体 的 范围 。 实 际 上 ,很 多 研究 中 已 经 提出 了 命名 实体 对 文档 文摘 的 重要 性 。 

关键 命名 实体 识别 可 以 看 作 一 个 二 分 类 问题 。 考 虑 一 个 实体 ,通过 一 系列 的 特征 来 判 
断 是 否 为 关键 命名 实体 ,标注 结果 只 有 两 种 :“ 是 ”与 否 ”。 此 处 我 们 输入 文档 可 以 是 经 过 
预 处 理 的 文档 、 标 注 , 共 指 消解 工作 已 经 完成 。 

此 处 我 们 使 用 决策 树 C4. 5 的 方法 进行 分 类 。 学 习 阶 段 , 每 个 实体 看 作 是 一 个 单独 的 
学 习 实 例 。 特 征 必须 反映 单个 实体 的 特征 。 例 如 类 型 .频率 等 。 表 6-7 列 出 了 我 们 考虑 的 
一 些 特征 。 


152 


网 络 信息 内 容 安 全 





表 6-7 关键 命名 实体 识别 特征 定义 





特征 。 例 如 ,人 名 和 组 织 名 更 有 可 能 成 为 关 
键 命名 实体 


特征 名 称 特征 描述 特征 提取 
特别 强调 了 4 种 实体 类 型 : 人名、 组 织 名 、 地 
ee 名 、 专 有 和 名词 。 实 体 类 型 是 一 个 非常 有 用 的 | person， organization , 
Entity_Type 


place, propernous 





In_Title_or_Not 


实体 是 否 出 现在 题目 中 。 这 是 判断 实体 是 
否 是 关键 命名 实体 的 一 个 重要 依据 ,认为 题 
目 往 往 是 对 文章 的 一 个 最 精确 的 摘要 。 题 
目 里 面 提 及 的 实体 ,一 般 来 说 是 与 主题 最 相 


如 果实 体 出 现在 题目 
中 , 则 取 值 为 1, 否则 
为 一 1 


关 的 

这 个 特征 记录 一 个 命名 实体 出 现在 文档 中 
的 次 数 。 一 般 来 说 , 越 频繁 出 现 的 命名 实体 | 1,2,3,… 
越 重 要 

这 个 特征 是 根据 位 置 抽取 重要 句子 方法 的 
启示 ,其 值 是 命名 实体 出 现 段落 第 1 句 的 |1,2,3,… 
次 数 

ee 文档 中 命名 实体 的 总 数 。 这 能 体现 一 个 命 
5 |Total_Entity_Count 本 i 
名 实体 在 文档 中 的 相对 重要 程度 

i 受 位 置 的 启发 ,记录 命名 实体 出 现在 所 有 句 . 
6 |First_Word_Occurrence 子 开头 的 数目 1,2,3,.. 





正 整 数 


3 |Entity_Frequency 





正 整数 


4 |First_Sentence_Occurrence 





正 整数 





正 整数 











3. 句子 提取 

句子 抽取 包括 两 方面 内 容 : 一 是 句子 重要 性 排序 ,二 是 去 除 元 余 句 子 。 

1) 句子 重要 性 排序 

针对 候选 句 的 排序 ,主要 通过 打分 法 进行 ,具体 规则 如 下 。 

(1) 包含 关键 命名 实体 的 句子 比较 重要 ,句子 重要 性 分 值 加 10 ,否则 加 0。 此 处 取 10 
是 进行 加 权 之 后 的 数值 ,以 此 来 平衡 根据 关系 网 络 的 加 分 标准 。 

(2) 另外 一 个 标准 是 根据 实体 间 关 系 。 首 先 通 过 内 容 分 析 得 到 文档 中 包含 的 实体 间 关 
系 网 络 ,方法 如 前 文 所 述 ; 然后 根据 网 络 中 点 的 出 度 、 入 度 的 大 小 对 各 个 实体 进行 加 分 ,从 
而 对 句子 进行 排序 。 句 子 分 值 为 句子 中 实体 的 出 度 、 入 度 大 小 之 和 。 

(3) 标题 是 作者 给 出 的 提示 文章 内 容 的 短语 ,包含 标题 中 有 效 词 ( 非 停 用 词 ) 的 句子 极 
有 可 能 是 对 文章 主题 的 叙述 或 总 结 .每 包含 一 个 有 效 词 ,其 重要 性 分 值 加 1, 否则 加 0。 

(4) 类 似 于 “ 综 上 所 述 ”“ 由 此 可 知 ” 的 线索 词 或 短语 大 多 出 现在 介绍 或 总 结 主题 的 句子 
中 ,因此 需要 提高 包含 线索 词 的 句子 的 重要 性 ,含有 线索 词 的 句子 分 值 加 5, 否则 加 0。 

(5) 美国 P. E. Baxendale 的 调查 结果 显示 : 段落 的 论题 是 段落 首 句 的 概率 为 85% ,是 
段落 未 句 的 概率 为 7%。 因 此 ,有 必要 提高 处 于 特殊 位 置 的 句子 的 权 值 。 段 首 句子 重要 性 
分 值 加 2, 段 尾 句 加 1 ,否则 加 0。 

2) 句子 去 重 

对 任意 两 个 句子 判 重 时 ,首先 把 每 个 句子 去 掉 修饰 成 分 ,得 到 其 主干 ,主要 是 由 主动 词 
及 逻辑 论 元 组 成 的 。 判 别 步骤 如 下 : 首先 判断 两 个 句子 中 的 逻辑 论 元 是 否 相 同 , 如 果 二 者 
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的 逻辑 论 元 不 完全 相同 ,那么 两 个 句子 不 为 元 余 句 ; 如 果 所 有 人 逻辑 论 元 都 相同 , 则 进一步 根 
据 主动 词 进行 判断 ,如 果 主 动词 语义 相同 , 则 认为 两 个 句子 为 元 余 。 此 处 对 主动 词 的 语义 相 
似 性 判断 根据 同义词 词典 得 到 。 

4. 输出 摘要 

输出 文摘 句 、 形 成 摘要 包括 两 个 方面 的 内 容 : 第 一 是 单 文档 摘要 的 输出 ,第 二 是 多 文档 
摘要 的 输出 。 

(1) 单 文档 摘要 形成 : 根据 文摘 句 在 原文 中 的 位 置 顺序 输出 形成 文摘 文档 。 

(2) 多 文档 摘要 形成 : 首先 把 文摘 句子 集合 与 所 有 原文 档 进行 比较 ,把 包含 文摘 句子 
最 多 的 文档 作为 基准 文档 。 然 后 把 文摘 句 集合 与 基准 文档 依次 进行 比较 ,对 于 基准 文档 中 
存在 的 句子 , 则 按照 它们 在 文中 出 现 的 顺序 先后 进行 排序 ; 对 于 没有 在 文中 出 现 的 句子 , 则 
查找 基准 文档 中 是 否 存 在 与 之 相似 的 句子 ,假如 存在 , 则 按照 相似 语句 与 其 他 语句 之 间 的 关 
系 进行 排序 ; 对 于 在 基准 文档 中 找 不 到 相似 句子 的 句子 , 则 按照 重要 程度 , 放 在 与 其 具有 相 
同 施 事 论 元 的 句子 附近 。 


6.6 社会 网 络 分 析 的 发 展 趋势 


从 异常 复杂 的 网 络 解构 出 其 中 的 社团 结构 并 评估 节点 的 角色 地 位 ,已 成 为 当今 复杂 系 
统 研究 领域 中 两 项 具有 挑战 性 的 研究 课题 。 虽 然 该 两 项 课题 近 些 年 受到 广泛 关注 ,涌现 出 
一 批 新 颖 的 算法 ,但 目前 这 些 相关 研究 仍 未 形成 统一 的 框架 和 度量 标准 , 尚 存 许多 问题 或 待 
解决 。 本 节 将 分 别 对 社团 发 现 和 节点 评估 两 项 研究 课题 的 发 展 趋势 进行 展望 。 

1. 社团 发 现 

随 着 社会 网 络 媒体 和 应 用 的 发 展 ,势必 对 于 社会 网 络 发 现 性 能 提出 更 高 的 要 求 , 如 何 对 
社会 网 络 进行 更 准确 的 发 现 ,也 必 将 成 为 研究 热点 。 复 杂 网 络 社团 发 现 的 进一步 研究 ,尤其 
是 重 倒 社团 发 现 算法 的 研究 ,可 从 以 下 几 个 方面 展开 。 

(1) 建立 统一 的 度量 标准 。 由 于 复杂 网 络 的 类 型 众多 ,连接 规律 各 有 不 同 , 很 难以 社团 
结构 的 某 种 统一 的 模块 度 ( 如 Q 值 ) 来 刻画 社团 发 现 算法 的 优 劣 。 一 种 更 为 科学 的 方式 是 
建立 一 套 包含 多 种 复杂 网 络 的 统一 标准 测试 集 , 以 评判 算法 在 不 同类 型 网 络 中 的 优 劣 ,明确 
算法 的 适用 范围 。 

(2) 适用 于 大 规模 复杂 网 络 的 社团 发 现 算法 。 复 杂 网 络 的 规模 越 来 越 大 ,对 算法 的 计 
算 复 杂 度 提出 了 更 高 要 求 。 虽 然 在 不 考虑 重 苍 社团 的 情况 下 ,已 出 现 一 些 接近 于 线性 时 间 
复杂 度 的 算法 ,但 这 些 算法 通常 采用 较为 激进 的 贪 禁 策 略 , 网 络 规模 变 大 且 非 稀 琉 时 ,其 结 
果 变 得 不 可 靠 。 在 重 倒 社团 发 现 算法 中 .很 多 算法 需要 通过 多 次 计算 来 获得 最 佳 的 社团 数 ， 
计算 开销 过 大 。 因 此 .考虑 复杂 网 络 社团 密度 不 均 的 特点 ,从 局 部 社团 出 发 研究 网 络 的 社团 
结构 是 未 来 的 重要 研究 方向 之 一 。 此 外 ,设计 适合 于 大 规模 网 络 分 析 的 高 效 并 行 算法 也 是 
未 来 重要 的 研究 方向 之 一 。 

(3) 重奏 社团 与 层次 社团 的 结合 。 一 般 认 为 ,社团 之 间 共 享 部 分 边缘 节点 从 而 产生 重 
登 社团 ,然而 重 全 社团 结构 远 比 想象 的 复杂 。 实 际 上 ,除了 重 倒 性 ,层次 性 也 是 社团 结构 的 
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另 一 大 特性 。 例 如 ,第 i 层 中 的 中 心 节点 ,可 能 在 第 j 层 中 就 变 成 了 边缘 节点 。 可 见 , 重 从 
性 与 层次 性 两 者 联系 十 分 紧密 ,有 必要 将 两 者 融和 在 一 起 来 解构 复杂 网 络 。 在 目前 的 众多 
方法 中 , 唯 有 边 社团 给 出 了 社团 重 和 毒性 和 层次 性 普遍 并 存 的 合理 解释 ,未 来 以 边 为 对 象 来 研 
究 网 络 社团 结构 将 是 一 个 值得 深入 研究 的 方向 。 

2. 节点 评估 

节点 重要 性 排序 的 指标 在 涉及 网 络 的 结构 信息 时 ,都 是 从 某 一 个 角度 对 于 网 络 某 一 方 
面 的 结构 特点 进行 刻画 ,如 果 目 标 网 络 的 结构 在 该 方面 特征 显著 , 即 可 得 到 较 好 的 效果 ; 或 
在 复杂 网 络 环境 下 ,通过 节点 的 网 络 传播 行为 的 影响 力 与 网 络 结构 关系 判断 节点 的 重要 性 。 
复杂 网 络 节点 重要 性 问题 的 研究 方兴未艾 ,还 有 非常 多 的 问题 没有 和 解决。 下面 我 们 列 出 其 
中 的 一 些 重要 研究 问题 。 

(1) 节点 重要 性 的 定义 。 节 点 的 重要 性 含义 不 同 , 评 价 节点 重要 性 排名 的 结果 也 不 同 。 
例如 2012 年 ,美国 (福布斯 ) 全 球 影响 力 人 物 排行 榜 , 美 国 总 统 奥巴马 成 为 2012 年 度 全 球 最 
具 影 响 力 人 物 , 排 名 依据 是 看 一 个 人 物 是 否 能 影响 一 群 人 ,看 所 在 国家 的 人 口 、 企 业 家 的 雇 
员 规 模 、 媒 体 受 众人 数 、 拥 有 的 财富 等 。 而 2012 年 ,美国 (时 代 ) 周 刊 评选 全 球 最 具 影 响 力 人 
物 ,美国 NBA 篮球 运动 员 纽约 尼克 斯 球 队 林 书 豪 位 居 榜 首 。《 时 代 》 周 刊 评选 最 具有 影响 
力 的 人 物 , 不 一 定 是 全 球 最 有 权力 或 最 有 钱 的 人 ,而 是 一 群 使 用 想法 、 洞 察 力 和 行动 ,对 民众 
产生 实际 影响 力 的 代表 。 

(2) 各 种 指标 间 的 内 在 联系 。 各 种 节点 重要 性 排序 的 方法 层出不穷 ,这 些 指 标 从 不 同 
视角 评价 节点 重要 性 。 这 些 指 标 在 不 同 拓扑 结构 的 网 络 , 其 准确 性 又 是 怎样 的 呢 ? 例如 ， 
Silva 等 人 对 随机 网 络 、 小 世界 网 络 和 随机 集合 网 络 等 网 络 模 型 以 及 美国 航空 网 络 进行 SIR 
传播 仿真 实验 ,采用 皮尔 了 还 系数 ,讨论 了 节点 的 拓扑 性 质 ,例如 度 、 可 达 性 、 节 点 强度 
(Strength) 、 介 数 .Ks 等 指标 与 该 节点 传播 能 力 的 相关 程度 。 

(3) 网 络 结构 和 网 络 行为 是 如 何 影响 节点 重要 性 评价 的 ? 这 对 研究 社会 影响 力 非 常 有 
帮助 。Robert 等 人 以 2010 年 美国 大 选 为 实例 研究 社会 影响 力 ,发现 Facebook 用 户 的 社会 
影响 力 与 网 络 结构 和 网 络 行为 传播 机 制 两 者 都 相关 。 

(4) 时 变 网 络 中 ,网 络 结构 是 变化 的 ,节点 的 各 种 指标 具有 动态 性 ,也 许 此 刻 某 个 节点 
的 重要 性 排 在 某 个 名 次 ,下 一 个 时 刻 又 可 能 是 另 一 个 名 次 。 此 时 节点 重要 性 指标 的 稳定 性 
和 准确 性 如 何 , 计 算 复 杂 度 如 何 , 就 变 得 特别 重要 。 例 如 ,淘宝 网 每 天 交易 量 达 数 千 万 笔 , 新 
浪 微 博 平台 平均 每 天 发 布 超过 1 亿 条 微 博 ,如 何在 这 种 具有 大 数据 特征 的 时 变 网 络 中 对 节 
点 重要 性 进行 排名 ,这 将 是 一 个 极 具 有 挑战 性 的 课题 。 


6.7 本 章 小 结 


随 着 网 络 的 普及 ,社会 网 络 在 网 络 信息 内 容 安全 中 的 应 用 也 日 益 凸 显 ,例如 邮件 过 滤 、 
利益 关系 分 析 、 人 的 可 信和 度 分 析 以 及 信息 共享 和 推荐 等 ,都 是 以 社会 网 络 分 析 为 基础 进 
行 的 。 

本 章 首先 简要 地 介绍 了 社会 网 络 分 析 的 概念 及 特点 ,详细 介绍 了 社会 网 络 分 析 的 研究 
体系 以 及 常用 的 一 般 模型 ,针对 社会 网 络 分 析 在 社团 挖掘 和 话题 监控 等 安全 方向 的 应 用 进 
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行 了 重点 论述 ,最 后 总 结 和 展望 了 社会 网 络 分 析 面 临 的 问题 和 可 能 的 发 展 方向 。 可 以 预见 
的 是 ,社会 网 络 将 不 断 发 展 并 对 我 们 的 工作 与 生活 产生 越 来 越 大 的 影响 ,而 网 络 信息 内 容 安 
全 将 更 加 依赖 于 以 互联 网 内 容 为 载体 的 复杂 社会 网 络 分 析 技 术 。 








习题 


. 社会 网 络 分 析 常 用 的 分 析 方法 有 哪些 ? 

. 社会 网 络 分 析 模 型 中 ,节点 的 地 位 一 般 如 何 进行 评估 ? 

. 简要 描述 基于 关键 词 抽取 的 中 文 新 闻 文 档 自动 文摘 方法 实现 流程 。 

. 基于 网 络 信息 内 容 的 社会 网 络 分 析 技术 与 一 般 的 社会 网 络 分 析 相 比 有 哪些 特殊 性 ? 
. 未 来 影响 社会 网 络 分 析 的 技术 主要 有 哪些 ? 


am oo 


第 7 音 网 络 与 情 分 析 


7.1 网 络 熏 情 分 析 概 述 


网 络 与 情 分 析 是 网 络 信息 内 容 安全 研究 中 一 个 重要 的 研究 方向 。 本 节 首 先 介绍 网 络 与 
情 分 析 的 概念 ,并 分 析 现 阶段 网 络 环境 中 与 情 分 析 技术 的 特点 ,总 结 网 络 与 情 分 析 的 重要 


7.1.1 网 络 熏 情 分 析 的 概念 


1. 网 络 和 与 情 的 含义 与 特点 

在 社会 科学 方面 ,我 国学 者 对 "和 与 情 * 这 一 概念 目前 还 没有 统一 的 认识 , 王 来 华 对 与 情 的 
定义 为 :“ 和 与 情 指 在 一 定 的 社会 空间 内 ,围绕 中 介 性 社会 事项 的 发 生 、 发 展 和 变化 ,作为 主体 
的 民众 对 作为 客体 的 国家 管理 者 产生 和 持 有 的 社会 政治 态度 。 如 果 把 中 间 的 一 些 定语 省 略 
掉 , 和 与 情 就 是 民众 的 社会 政治 态度 。” 

网 络 与 情 是 社会 不 同 领域 在 网 络 上 的 不 同 表现 ,有 政治 与 情 法 制 与 情 . 道 德 与 情 、 消 费 
与 情 等 。 在 当今 社会 条 件 下 ,处 于 深刻 历史 变革 中 的 中 国 , 开 放 程 序 , 空 前 扩大 ,现代 传媒 迅 
速 发 展 , 人 们 的 交往 日 益 密 切 , 观 念 和 价值 冲突 加 剧 , 社 会 突 发 事件 时 有 发 生 , 加 上 自由 、 自 
主 增 大 ,社会 每 时 每 刻 都 在 自觉 不 自觉 地 传播 、 制 造 与 情 流量 ,并 使 之 不 断 扩充 ,人 人 都 生活 
在 与 情 的 氛围 中 。 网 络 与 情 不 仅 形成 迅速 ,而 且 对 社会 生活 的 各 个 方面 产生 了 极 大 影响 。 

网 络 与 情 通 过 多 种 媒介 传播 :如 新 闻 评 论 ,博客 留言 和 论坛 等 。 网 络 与 情 具有 ”滚雪球 ” 
效应 , 它 靠 一 批 热心 网 友 的 上 帖 ` 跟 帖 、 转 帖 来 造就 。 周 如 俊 等 人 认为 网 络 与 情 的 形成 有 3 
方面 的 诱因 。 

第 一 ,社会 矛盾 。 由 社会 矛盾 产生 各 种 社会 问题 诱发 意见 ,意见 在 网 络 上 的 普遍 化 可 视 
为 网 络 与 情 的 形成 。 这 种 社会 矛盾 必须 符合 以 下 要 求 : 四 社会 矛盾 的 解决 受阻 , 陷 人 非常 
状态 ; @ 这 种 受阻 最 终 表现 为 蔬 盾 纠葛 ,呈现 出 "有形 的 难题 "; @ 这 种 “社会 难题 "引起 网 
民 的 关切 和 议论 ; @ 社 会 矛盾 获得 解决 , 先 使 人 民 受 益 , 网 民 发 出 装 扬 声 ,也 会 形成 熏 情 。 

第 二 ,个 人 意见 的 扩展 。 社 会 问题 引起 不 同 个 体 的 反映 程度 和 方向 不 同 ,但 个 体 可 以 选 
择 网 络 论坛 或 聊天 室 来 发 表 见 解 .扩大 见解 ,引起 他 人 的 注意 。 在 不 断 有 其 他 网 民 的 跟 帖 、 
讨论 .响应 下 ,个 人 的 意见 就 会 扩展 成 意见 的 “ 聚 议 量 ”。 

第 三 ,偶发 事件 的 激发 。 事 件 是 与 情形 成 的 激发 点 ,直接 引起 议论 向 与 论 的 转变 。 任 何 
一 个 具体 事件 的 发 生 都 表现 为 历史 进程 的 必然 性 ,而 每 个 事件 在 什么 时 候 发 生 、 谁 在 事件 中 
扮演 什么 角色 又 具有 偶然 性 。 作 为 事件 旁观 者 的 大 多 数 网 民 , 通 过 网 络 或 其 他 渠道 了 解 , 引 
发 广泛 讨论 。 特 别 是 一 些 重大 的 社会 事件 ,涉及 许多 人 的 切身 利益 ,直接 关系 到 国家 、 民 族 、 
社会 的 命运 ,引起 人 们 的 思虑 , 激 起 网 民 的 众说 纷 经 . 便 会 形成 对 事件 的 冲击 。 
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2. 网 络 与 情 的 主要 表现 形态 

与 情 经 常 发 生 在 民意 表达 最 为 集中 、 奥 情 传 播 最 为 畅通 的 “场所 ”。 从 目前 来 看 ,网 络 与 
情 的 存在 空间 主要 有 以 下 几 处 : 电子 公告 板 (BBS) 、 即 时 通信 (IM)、 电 子 邮 件 (E-mail) 及 新 
闻 组 (News Group) ,博客 (Blog) ,维基 (Wiki) 、 掘 客 。 
于 网 络 媒体 不 同 于 传统 的 其 他 媒体 ,网 络 熏 情 信息 表现 为 文本 、 图 像 、 视 频 和 音频 等 
多 种 形式 。 和 与 情 监 测 者 可 以 从 网 络 和 与 情 信息 的 这 些 形态 来 收集 信息 。 
1) 文本 类 
网 络 技术 的 发 达 促进 了 网 络 交流 ,同时 ,网 络 交流 的 增加 也 促进 了 信息 的 交流 。 文 本 类 
与 情 借助 网 络 往往 在 短 时 间 内 就 为 公众 所 知 ,并 采取 措施 应 对 。 

2) 图 片 和 视频 类 

相 比 文字 ,图 片 和 视频 更 能 将 现场 情景 形象 地 再 现在 人 们 的 眼前 ,更 具有 说 服 力 和 视觉 
冲击 感 。 不 可 忽视 的 是 ,数字 化 图 片 处 理 技术 的 发 展 使 得 网 民 可 以 轻易 将 各 种 不 同 的 图 片 
嫁接 在 一 起 ,达到 以 假 乱 真 的 地 步 , 使 人 真 假 莫 辨 。 

3) 网 络 行为 一 一 黑客 和 网 络 暴力 
黑客 (Hacker) , 源 于 英语 动词 hack, 意 为 “ 臂 、 砍 ”。 在 早期 麻 省 理工 学 院 的 校园 倡 语 
中 ,“ 黑 客 ” 则 有 “恶作剧 ”之 意 , 尤 指 手 法 巧妙 、 技 术 高 明 的 恶作剧 。 网 络 的 虚拟 性 和 匿名 性 
使 网 民 并 无 经 济 学 意义 上 的 成 本 约束 ,再 加 上 网 络 伦理 的 缺乏 约束 ,“ 网 络 暴民 ”和 “匿名 专 
制 ?的 产生 也 顺理成章 。 根 据 传 播 学 的 “沉默 的 螺旋 ?理论 , 当 人 们 看 到 自己 赞同 的 观点 时 会 
积极 参与 ,而 发 现 某 一 观点 无 人 问津 时 ,即使 赞同 也 会 保持 沉默 ,这 样 就 会 使 一 方 观点 越 来 
越 鼓 品 而 另 一 方 却 越 来 越 沉 默 , 从 而 导致 * 假 真理 ”和 * 假 民意 ”盛行 , 正 是 这 一 点 让 我 们 必须 
对 那些 “恶搞 式 回 帖 ” 保 持 足够 警惕 。 


7.1.2 网 络 和 与 情 的 特点 


互联 网 在 全 球 范围 内 飞速 发 展 ,网 络 媒体 已 被 公认 为 是 继 报纸 .广播 .电视 之 后 的 “第 四 
媒体 ”。 网 络 成 为 反映 社会 与 情 的 主要 载体 之 一 。 网 络 环境 下 与 情 信息 的 主要 来 源 有 新 闻 
评论 `. BBS、 聊天 室 、 博 客 、 聚 合 新 闻 (RSS)。 网 络 与 情 表达 快捷 ,信息 多 元 ,方式 互动 ,而 其 
开放 性 和 虚拟 性 ,决定 了 网 络 与 情 具 有 以 下 特点 。 

1. 直接 性 

通过 BBS ,新闻 点 评 和 博客 网 站 ,网 民 可 以 立即 发 表意 见 , 下 情 直 接 上 达 , 民 意 表达 更 加 
畅通 ; 网 络 与 情 还 具有 无 限 次 即时 快速 传播 的 可 能 性 。 在 网 络 上 ,只 要 复制 粘贴 ,信息 就 得 
到 重新 传播 。 相 比较 传统 媒体 的 若干 次 传播 的 有 限 性 ,网 络 与 情 具有 无 限 次 传播 的 潜能 。 
网 络 的 这 种 特性 使 其 可 以 轻易 穿越 封锁 , 令 监管 部 门 束 手 无 策 。 

2. 随意 性 和 多 元 化 

“网 络 社会 "所 具有 的 虚拟 性 、 匿 名 性 、 无 边界 和 即时 交互 等 特性 ,使 网 上 和 与 情 在 价值 传 
递 、 利 益 诉求 等 方面 旦 现 多 元 化 、 非 主流 的 特点 。 加 上 传统 “审核 人 "作用 的 削弱 ,各 种 文化 
类 型 .思想 意识 、 价 值 观念 ,生活 准则 ,道德 规范 都 可 以 找到 立足 之 地 ,有 积极 健康 的 与 论 ,也 
有 庸俗 和 灰色 的 与 论 ,以 致 网 络 熏 论 内 容 五 花 八 门 .异常 丰富 。 网 民 在 网 上 或 隐匿 身份 ,或 
现身说法 , 纵 谈 国事 , 嬉 怒 笑 吕 ,交流 思想 ,关注 民生 ,多 元 化 的 交流 为 民众 提供 了 宣泄 的 空 
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间 ,也 为 搜集 真实 与 情 提供 了 素材 。 

3. 突 发 性 

网 络 打破 了 时 间 和 空间 的 界限 ,重大 新 闻 事 件 在 网 络 上 成 为 关注 焦点 的 同时 ,也 迅速 成 
为 与 论 热 点 。 当 前 与 论 炒 作 方式 主要 是 先 由 传统 媒体 发 布 ,然后 在 网 络 上 转载 ,再 形成 网 络 
与 论 , 最 后 反馈 回 传统 媒体 。 网 络 实时 更 新 的 特点 ,使 得 网 络 与 论 可 以 最 快 的 速度 传播 。 

4. 隐蔽 性 

互联 网 是 一 个 虚拟 的 世界 ,由 于 发 言 者 身份 隐蔽 ,并 且 缺 少 规则 限制 和 有 效 监督 ,网 络 
自然 成 为 一 些 网 民 发 泄 情绪 的 空间 。 

5. 偏差 性 

互联 网 奥 情 是 社情 民意 中 最 活跃 .最 尖锐 的 一 部 分 ,但 网 络 和 与 情 还 不 能 等 同 于 全 民 立 
场 。 随 着 互联 网 的 普及 ,新 闻 跟 帖 . 论 坛 .博客 的 出 现 ,使 得 中 国 网 民有 了 空前 的 话语 权 , 可 
以 较为 自由 地 表达 自己 的 观点 与 感受 。 但 由 于 网 络 空间 中 法 律 道 德 的 约束 较 弱 ,如 果 网 民 
缺乏 自律 ,就 会 导致 某 些 不 负责 任 的 言论 ,例如 热衷 于 揭 人 隐私 .妖言 惑 众 ` 反 社会 倾向 、 偏 
激 和 非 理 性 、 群 体育 从 与 冲动 等 。 由 于 发 言 者 身份 隐 项 ,并 且 缺 少 规则 限制 和 有 效 监督 ,网 
络 自然 成 为 一 些 网 民 发 汇 情 绪 的 空间 。 在 现实 生活 中 过 到 挫折 、 对 社会 问题 认识 片面 等 ,都 
会 利用 网 络 得 以 宣泄 。 因 此 在 网 络 上 更 容易 出 现 庸俗 .灰色 的 言论 。 


7.1.3 网 络 舆 情 分 析 的 意义 


目前 大 部 分 部 门 和 企业 的 与 情 监 测 和 管理 工作 主要 靠 人 工 来 完成 。 这 样 负责 网 络 与 情 
监测 任务 的 部 门 和 人 员 承 受 着 巨大 的 工作 压力 。 人 工 进行 与 情 监测 还 会 遇 到 很 多 问题 ,如 ， 

(1) 与 情 收集 不 全 面 ; 

(2) 与 情 发 现 不 及 时 ; 

(3) 与 情 分 析 不 准确 

(4) 信息 利用 不 便利 。 

由 于 互联 网 上 的 信息 量 十 分 巨大 ,并且 形式 多 样 , 仅 依靠 人 工 的 方法 难以 应 对 网 上 海量 
信息 的 收集 和 处 理 。 因 此 ,经 常 出 现 涉 及 “与 我 相关 ?的 和 与 情 信 息 已 经 在 网 上 快速 传播 ,一 些 
非 理 性 和 不 切实 际 的 信息 传播 开 来 ,造成 了 很 坏 的 社会 影响 ,或 者 通过 其 他 部 门 得 到 反馈 ， 
甚至 决策 层 都 知道 了 .但 是 负责 奥 情 监测 的 人 员 却 毫 不 知情 ,失去 了 第 一 时 间 获 取 和 掌握 与 
情 , 及 时 处 理 的 时 机 ; 与 情事 件 发 生 以 后 ,也 缺乏 有 效 的 与 情 分 析 手 段 , 无 法 提供 定性 定量 
的 数据 用 于 与 情 分 析 研 判 ; 目前 完全 靠 人 工 进行 与 情 信 息 的 收集 和 上 报 , 费 时 费力 效果 不 
好 ,也 无 法 提供 更 加 有 用 的 与 情 统 计 分 析 数 据 ,为 决策 层 提 供 辅助 决策 服务 。 

在 新 的 互联 网 形势 下 , 面 对 这 样 的 困扰 ,需要 借助 互联 网 与 情 监测 工具 ,及 时 监测 、 汇 
集 、 研 判 网 上 与 情 , 引 导 和 与 论 方向 ,化 解 危 机 与 论 。 跟 踪 事 态 发 展 , 及 时 向 有 关 部 门 通报 , 快 
速 应 对 处 理 , 变 被 动 为 主动 ,使 网 络 奥 情 成 为 政府 和 相关 部 门 决策 的 重要 依据 。 利 用 和 与 情 监 
测 系统 平台 ,配合 相应 的 与 情 工作 机 制 . 听 取 百 姓 心 声 , 接 受 百 姓 意见 和 建议 。 树 立 自 觉 接 
受 和 群众 监督 意识 。 

从 另 一 方面 来 讲 , 网 络 与 情 分 析 技 术 弥 补 了 人 工 难以 处 理 的 不 足 。 它 具备 以 下 功能 。 

(1) 与 情 分 析 引 擎 。 这 是 与 情 分 析 系 统 的 核心 功能 ,包括 : 四 热点 话题 .敏感 话题 识 
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别 。 可 以 根据 新 闻 出 处 权威 度 .评论 数 量 ,发言 时 间 密 集 程度 等 参数 ,识别 出 给 定时 间 段 内 
的 热门 话题 。 利 用 关键 字 布 控 和 语义 分 析 识别 敏感 话题 。 四 倾向 性 分 析 。 对 于 每 个 话题 ， 
对 每 个 发 信人 发 表 的 文章 的 观点 、 倾 向 性 进行 分 析 与 统计 。@@ 主 题 跟踪 。 分 析 新 发 表 文章 、 
帖子 的 话题 是 否 与 已 有 主题 相同 。@ 自 动 摘 要 。 对 各 类 主题 ,各 类 倾向 能 够 形成 自动 摘要 。 
@ 趋 势 分 析 。 分 析 某 个 主题 在 不 同 的 时 间 段 内 人 们 所 关注 的 程度 。@ 突 发 事件 分 析 。 对 突 
发 事件 进行 跨 时 间 ` 跨 空间 的 综合 分 析 , 获 知事 件 发 生 的 全 貌 并 预测 事件 发 展 的 趋势 。@ 系 
统 报警 。 对 突 发 事件 ,涉及 内 容 安全 的 敏感 话题 及 时 发 现 并 报警 。@@ 统 计 报 告 。 根 据 与 情 
分 析 引擎 处 理 后 的 结果 库 生 成 报告 ,用 户 可 通过 浏览 器 浏览 提供 信息 检索 功能 ,根据 指定 条 
件 对 热点 话题 ,倾向 性 进行 查询 ,并 浏览 信息 的 具体 内 容 , 提 供 决策 支持 。 

(2) 自动 信息 采集 功能 。 现 有 的 信息 采集 技术 主要 是 通过 网 络 页 面 之 间 的 链接 关系 从 
网 上 自动 获取 页 面 信息 ,并 且 随 着 链接 不 断 向 整个 网 络 扩展 。 目 前 ,一 些 搜索 引擎 使 用 这 项 
技术 对 全 球 范 围 内 的 网 页 进行 检索 。 和 与 情 监控 系统 应 能 根据 用 户 信息 需求 设 定 主题 目标 ， 
使 用 人 工 参与 和 自动 信息 采集 结合 的 方法 完成 信息 收集 任务 。 

(3) 信息 抽取 功能 。 对 收集 到 的 信息 进行 处 理 , 如 格式 转换 ` 数 据 清理 ,数据 统计 。 对 
于 新 闻 评 论 , 需 要 滤 除 无 关 信息 ,抽取 并 保存 新 闻 的 标题 .出 处 、 发 布 时 间 、 内 容 \ 点 击 次 数 、 
评论 人 .评论 内容. 评论 数量 等 。 对 于 论坛 BBS ,需要 记录 帖子 的 标题 ,发 言 人 ,发布 时 间 、 内 
容 \ 回 帖 内 容 、 回 帖 数量 等 ,最 后 形成 格式 化 信息 。 和 与 情 分 析 系 统 的 核心 技术 涉及 自然 语言 
处 理 、 文 本 分 类 、 聚 类 、 观 点 倾向 性 识别 .主题 检测 与 跟踪 、 自 动 摘 要 等 信息 处 理 技 术 。 

公共 危机 事件 爆发 时 ,犹如 以 石 击 水 ,相关 信息 在 短 时 间 内 迅速 传播 ,引起 群众 的 广泛 
关注 。 一 些 非 理性 议论 .小 道 消 息 或 负面 报道 常常 在 一 定 程度 上 激发 人 们 普遍 的 危机 感 , 甚 
至 影响 到 群众 对 政府 的 信任 ,影响 到 消费 者 对 企业 品牌 的 认同 。 如 不 及 时 采取 正确 的 措施 分 
析 和 应 对 ,会 造成 难以 估计 的 后 果 。 关 注 行业 敏感 与 情 , 对 于 相关 部 门 和 企业 来 说 非常 重要 。 








7.2 网 络 与 情 分 析 的 关键 技术 


当前 社会 与 情 的 研究 正 处 于 从 网 络 与 情 研 究 到 大 数据 与 情 研 究 的 过 渡 期 ,在 处 理 技术 
上 ,大 数据 与 情 分 析 继 承 了 网 络 与 情 分 析 的 诸多 方法 。 同 时 ,二 者 在 分 析 步 又 上 具有 相同 的 
范式 。 通 过 对 网 络 与 情 分 析 和 大 数据 与 情 分 析 相 关 文 献 的 归纳 ,本 小 节 总 结 出 大 数据 时 代 
网 络 与 情 分 析 的 基本 研究 框架 和 5 类 关键 技术 : 信息 采集 、 热 点 发 现 ,热点 评估 、 主 题 跟踪 
和 分 析 处 理 。 


7.2.1 信息 采集 技术 


信息 采集 是 网 络 与 情 分 析 的 第 一 步 , 其 包含 数据 的 怜 取 、 数 据 的 存储 和 清洗 等 相关 技 
术 。 当 前 学 者 主要 通过 网 络 疏 虫 程序 .网 站 API 接口 获取 研究 数据 。 常 用 的 网 络 候 虫 有 
Heritrix、Nutch 和 Labin。Hu 等 人 在 Hertrix 的 基础 上 增加 关键 词 管理 模块 .内 容 提 取 模 
块 . 最 佳 优先 策略 和 重复 删除 模块 建立 了 一 个 增强 的 Heritrix, 提高 了 抓 取 数 据 与 热点 话题 


据 。Xiao S 等 人 利用 新 浪 微 博 的 官方 API 接口 和 网 络 疏 虫 相 结 合 的 方法 搜集 了 大 量 研究 
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数据 ,克服 了 新 浪 微 博 不 提供 大 量 分 析 数 据 的 问题 。 大 数据 时 代数 据 疏 取 面临 的 主要 技术 
难题 是 如 何 同 时 提高 获取 数据 的 精度 .速度 以 及 对 不 同 领域 和 各 种 形态 的 数据 的 有 效 疏 取 。 
Ackerman 等 人 提出 的 基于 SYSKILL &WEBERT、DICA 和 GRANT & LEARNER 三 个 
智能 体 的 方法 能 够 对 特定 领域 的 熏 情 信息 进行 仆 取 ,并 通过 设 定 特 征集 合 来 提高 信息 搜集 
的 精度 ,但 是 该 方法 在 搜集 不 同 领域 的 知识 和 信息 时 和 与 情 信 息 精 度 较 低 , 且 系统 运行 速度 较 
慢 。Chakrabarti 等 人 提出 一 个 聚焦 仆 虫 的 超 文 本 资源 发 现 系 统 , 它 能 实现 对 预先 定义 的 热 
点 事件 相关 的 网 络 信 息 的 快速 提取 以 及 数据 库 的 实时 更 新 ,但 是 该 方法 不 能 对 其 未 定义 的 
热点 与 情 数 据 进 行 有 效 的 仆 取 。Aggarwal 等 人 发 明了 一 项 智能 疏 取 技术 ,能够 通过 自主 学 
习 来 提高 后 续 信 息 疏 取 的 精度 和 广度 ,但 是 不 能 对 预定 义 的 热点 进行 疏 取 。 

另外 ,对 于 音频 、 视 频 以 及 图 片 和 文本 等 各 种 混杂 的 数据 的 获取 ,目前 还 没有 有 效 的 技 
术 手 段 。 现 阶段 的 网 络 与 情 分 析 的 数据 存储 方法 主要 是 将 获取 的 热点 数据 直接 存储 于 
SQL Server、Oracle、Sybase 等 数据 库 中 。 大 数据 的 出 现 以 及 结构 数据 的 改变 对 常规 的 数据 
存储 技术 带 来 了 巨大 挑战 。 对 于 不 同 的 数据 类 型 ,学 术 界 提出 了 3 种 大 数据 存储 技术 : 海 
量 非 结 构 化 数据 的 分 布 式 文件 存储 系统 、 海 量 半 结构 化 数据 的 NoSQL 数据 库 和 海量 结构 
的 分 布 式 并 行 数据 库 系统 。 


7.2.2 与 情 热 点 发 现 技术 


网 络 与 情 热 点 发 现 技术 包 括 目标 话题 的 识别 与 跟踪 CTDT) 技 术 , 强 调 对 新 信息 的 发 现 
和 特定 热点 的 关注 ,通过 聚 类 将 信息 汇总 给 用 户 ,并 自动 跟踪 新 闻 事 件 ,提供 事件 发 展 的 轨 
迹 。 现 有 的 研究 技术 主要 有 Single-pass 聚 类 算法 、K-means、KNN 最 邻近 法 、 支 持 向 量 机 
(SVMD) 算 法 和 SOM 神经 网 络 聚 类 算法 。 

Single-pass 是 话题 发 现 中 最 常用 的 聚 类 算法 ,其 在 动态 聚 类 和 速度 上 表现 较 好 ,但 是 
在 时 效 性 和 精度 方面 存在 不 足 。 近 年 来 国内 相关 学 者 对 此 算法 进行 了 改进 ,取得 了 不 错 的 
效果 。 税 仪 冬 等 人 提出 了 一 种 周期 性 分 类 和 Single-pass 聚 类 结合 的 话题 识别 和 跟踪 方法 。 
该 方法 能 够 降低 漏 检 率 和 错 检 率 ,减少 归 一 化 错误 的 识别 代价 。 方 星星 、 吕 永 强 通过 引入 子 
话题 中 心 和 时 间距 离 计算 公式 并 根据 文档 内 容 相似 度 和 文档 时 间距 离 来 计算 相似 度 , 使 算 
法 在 漏 检 率 、 误 检 率 .耗费 函数 等 方面 有 了 显著 改善 。K-means 算法 是 一 种 基于 硬 划分 的 无 
监督 聚 类 算法 。 该 算法 具有 良好 的 可 伸缩 性 和 很 高 的 效率 ,但 是 需要 事先 给 定 分 类 复数 
开 , 并 且 其 分 类 结果 受 初 始 值 . 噪 声 和 孤立 点 的 影响 较 大 。KNN 算法 是 一 种 基于 类 比 学 习 
的 非 参 数 分 类 技术 。 该 方法 在 统计 模式 识别 中 有 很 好 的 效果 ,对 于 未 知 和 非 正 态 分 布 可 以 
得 到 较 高 的 分 类 准确 率 , 但 是 当 训练 样本 过 多 时 计算 速度 会 减缓 。 支 持 向 量 机 (SVM) 是 用 
来 解决 同一 时 间 内 多 热点 事件 的 识别 和 报道 的 分 类 问题 的 一 种 方法 ,其 采用 结构 风险 最 小 
化 原则 , 泛 化 能 力 强 且 不 易 出 现 过 学 习 现 象 ,在 处 理 小 样本 时 有 出 色 的 学 习 能 力 和 推广 能 
力 。 但 SVM 算法 在 多 类 分 类 的 研究 还 处 于 探索 性 阶段 , 且 在 算法 的 实现 方面 存在 计算 速 
度 慢 .算法 相对 复杂 的 问题 。SOM 神经 网 络 聚 类 算法 是 一 种 无 监督 的 学 习 方 法 ,是 通过 模 
拟人 脑 对 信号 的 处 理 特点 而 发 展 起 来 的 一 种 人 工 神经 网 络 。SOM 聚 类 的 难点 是 如 何 设 置 
输出 层 的 节点 个 数 , 过 多 或 过 少 都 会 对 聚 类 的 质量 和 网 络 收敛 的 效率 产生 影响 。 因 此 ， 





对 于 以 上 几 种 热点 发 现 算法 ,相关 学 者 进行 了 比较 。 习 婷 等 人 通过 对 比 以 上 两 种 算法 
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发 现 ,Single-pass 算法 在 网 络 热点 检测 中 比 K-means 算法 的 效果 更 好 。 柳 虹 、 徐 金华 通过 


构 风 险 最 小 化 理论 基础 上 的 SVM 算法 能 够 处 理 高 维 的 文本 多 类 分 类 问题 ,同时 表现 出 良 
好 的 泛 化 效果 。 尽 管 传统 的 Single-pass 和 K-means 算法 存在 很 多 缺陷 ,但 是 由 于 它们 相对 
简单 的 规则 和 较 快 的 计算 速度 而 被 广泛 用 于 当前 大 数据 聚 类 分 析 中 。 


7.2.3 热点 评估 和 跟踪 


热点 评估 是 根据 热点 事件 中 公众 的 情感 和 行为 反应 对 与 情 进行 等 级 评估 并 设立 相应 的 
预警 阅 值 。 词 频 统 计 、 情 感 分 类 是 网 络 与 情 评估 的 两 个 主要 手段 。 词 频 统计 是 对 网 络 调 查 
数据 ` 网 络 文章 关键 词 和 浏览 统计 数据 等 信息 进行 分 析 并 作出 评估 。 这 种 方式 对 于 文本 量 
大 的 结构 化 数据 处 理 效果 较 好 ,但 是 对 于 社交 网 站 中 海量 非 结 构 化 的 文本 数据 ,并 不 能 有 效 
地 评估 。 因 此 ,这 种 热点 评估 方法 通常 结合 领域 词典 和 相似 性 计算 ,根据 设立 的 相似 度 阔 值 
进行 相关 情感 词语 的 分 类 统计 。 

中 文 语言 的 WordNet 和 英文 语言 的 HowNet 是 两 种 常用 的 词语 相似 度 计 算 工 具 。 基 
于 情感 分 类 的 热点 评估 在 与 情 评估 领域 使 用 的 较为 普遍 。 夏 火 松 等 人 对 情感 研究 进行 了 综 
述 ,详细 介绍 了 情感 分 类 的 两 类 关键 技术 : 基于 概率 论 和 信息 理论 的 分 类 算法 ,如 朴素 贝 叶 
斯 算法 (NB)、 最 大 信 算 法 (ME) 以 及 基于 机 器 学 习 的 分 类 算法 ,如 决策 树 、 支 持 向 量 机 
(SVM) 等 。 当 前 主要 使 用 KNN 最 邻近 法 和 朴素 贝 叶 斯 算法 (NBC) 进 行 热点 跟踪 ,通过 对 
热点 与 情 的 快速 分 类 实现 跟踪 目的 。KNN 算法 对 于 与 情 信 息 的 分 类 准确 性 较 高 ,但 是 对 
于 大 批量 数据 的 处 理 速度 较 慢 。NBC 算法 在 分 类 效率 上 较为 稳定 ,但 是 由 于 其 模型 假设 属 
性 之 间 相 互 独立 的 特点 ,使 得 其 分 类 误差 率 受 到 了 一 定 的 影响 。 与 情 分 析 是 根据 热点 事件 
的 分 析 结果 评估 事件 的 与 情 等 级 ,并 根据 已 有 的 标准 采取 相应 的 控制 和 引导 措施 。 分 析 处 
理 是 大 数据 时 代 网 络 与 情 监控 中 决策 层 的 范畴 , 它 涵盖 了 与 情事 件 的 早期 预警 . 与 情 的 引 
导 、 网 络 民意 的 反馈 沟通 和 与 情 的 总 结 评估 机 制 。 网 络 与 情 预警 阔 值 的 设置 同 其 他 领域 与 
情 设 置 相 似 , 通 常 基于 分 类 或 聚 类 的 思想 ,根据 已 有 与 情 信息 的 关注 度 、 传 播 速度 以 及 影响 
程度 将 与 情 信息 分 为 绿 . 黄 、 栖 、 红 四 种 颜色 等 级 ,其 中 绿色 最 弱 , 红 色 表 示 最 危险 等 级 。 在 
与 情 预 警 中 ,常用 的 分 类 学 习 方法 有 神经 网 络 `. 贝 叶 斯 分 类 器 .最 近邻 方法 和 SVM。 
Alessio 使 用 支持 向 量 回归 的 方法 对 Twitter 中 HIN1 相关 的 语 料 进行 分 类 。Sun X 等 人 
基于 SVM 模型 对 新 浪 微 博大 数据 进行 了 样本 训练 和 分 类 ,Cuneyt 使 用 人 工 神经 网 络 、 决 策 
树 、 回 归 分 析 模 型 构建 了 一 个 金融 风险 等 级 预测 机 制 FPI。 在 网 络 与 情 引导 模型 的 构建 上 ， 
Feng Cao 等 人 从 政府 ` 企 业 以 及 意见 领袖 三 方 探讨 了 网 络 与 情 引导 的 策略 。 


7.2.4 与 情 等 级 评估 


网 络 与 情 的 等 级 评估 是 网 络 与 情 分 析 的 重要 技术 手段 ,常用 方法 是 综合 评判 方法 。 综 
合 评判 隶属 于 多 元 分 析 , 是 系统 工程 的 重要 环节 ,应 用 非常 广泛 。 综 合 评判 就 是 对 受到 多 种 
因素 制约 的 事物 或 现象 做 出 一 个 总 体 评 判 。 该 方法 突破 了 精确 数学 的 逻辑 和 语言, 强调 了 
影响 事物 或 现象 的 各 个 因素 的 模糊 性 , 较 好 地 解决 了 定性 指标 的 定量 化 问题 ,在 处 理 定性 指 
标 较 多 的 评价 问题 时 具有 良好 的 适应 性 ,较为 深刻 地 刻画 了 其 客观 属性 ,是 迄今 为 止 比较 先 
进 的 评判 方法 。 对 我 国 网 络 与 情 安全 指标 体系 的 评估 就 是 采用 多 级 模糊 综合 评判 模型 。 
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对 于 多 级 模糊 综合 评判 模型 来 说 ,模型 的 确定 主要 涉及 模糊 合成 算 子 的 选择 , 它 将 模糊 
评判 模型 划分 为 以 下 4 类 。 

模型 一 : M(A,w 算 子 , 即 “ 扎 德 " 算 子 ,也 称 为 主因 素 决 定型 因子 ,为 取 小 (min) 运 算 ,v 
为 取 大 (max) 运 算 , 即 分 别 进 行 取 小 和 取 大 运算 ,从 而 只 考虑 最 突出 的 因素 作用 ,其 他 因素 
并 不 真正 起 作用 ,比较 适用 于 单项 评判 最 优 就 能 算 作 综合 评判 最 优 的 情况 。 

模型 二 : M(。 ,wv 算 子 , 称 为 主因 素 突出 型 算 子 ,。 为 普通 实数 乘法 ,为 取 大 (max) 运 
算 , 适 当 考 虑 了 其 他 次 要 因素 的 作用 ,比较 适用 于 模型 失效 (不 可 区 别 ), 需 要 “加 细 ” 考 虑 的 
情况 。 

模型 三 : M( 人 ^, 田 ) 算 子 ,也 称 为 主因 素 突出 型 算 子 ,人 为 取 小 (min) 运 算 ,aBB 二 min(1， 
at+P),D 3 为 对 m 个 数 在 四 运算 下 求 和 , 即 b; 一 min[ 1, 2yars | 

模型 四 : M(。, 申 ) 算 子 , 称 为 加 权 平均 型 算 子 ,.。 为 普通 实数 乘法 ,a 申 8 一 min(1,c 十 
月 ,四 > 为 对 刀 个 数 在 四 运算 下 求 和 , 即 久 一 min[1, 27ary] 。 

它 不 仅 兼顾 了 所 有 因素 的 影响 , 且 保 留 了 单 因素 评判 的 全 部 信息 ,比较 适用 于 要 求 总 和 
最 大 的 情况 。 

在 实际 应 用 中 ,对 模型 的 选择 要 根据 具体 问题 的 需要 和 可 能 而 定 。 本 书 的 评估 对 象 是 
网 络 与 情 安 全 ,因此 要 考虑 所 有 因素 对 整体 对 象 安全 的 影响 ,从 而 体现 出 整体 特性 ,因此 采 
用 模型 四 。 

一 般 来 说 ,对 于 上 述 4 种 模糊 综合 评判 模型 来 说 ,建立 模型 的 程序 通常 包含 以 下 5 步 。 

(1) 确定 对 象 集 和 评估 因素 集 U。 

(2) 建立 评估 集 V 

(3) 确定 权重 集 W , 即 不 同 因素 U; 的 权重 W;。 

(4) 对 每 个 因素 做 出 单 因素 评判 ,得 到 单 因 素 评判 向 量 (mayra,…*ram); 从 而 建立 模糊 
隶属 度 和 矩阵 = (xi )wxn,R 实质 上 是 U 与 V 之 间 的 模糊 关系 , 即 R: UXV 一 1。 

(5) 模糊 综合 评判 ,采用 计算 模糊 关系 矩阵 的 合成 值 B 二 W。 民 ,* 为 合成 算 子 , 即 综合 判 
定 结果 。 

我 国 网 络 熏 情 安全 评估 模型 的 构建 亦 一 般 采 取 上 述 程 序 。 

1. 确定 对 象 集 和 评估 因素 集 

在 本 模型 中 ,对 象 集 即 评判 对 象 为 网 络 与 情 的 安全 。 

影响 网 络 与 情 安全 的 因素 组 成 因素 集 : U 二 (ww,uzsussiu) 二 {传播 扩散 ,民众 关注 ,内 
容 敏 感 , 态 度 倾向 } 。 

对 于 评估 因素 集 的 每 一 个 因素 tsUzruUsast4 :都 可 以 由 它 的 下 一 级 因素 子 集 Xs 来 评判 ， 
其 中 i=1,2,3,4,j 二 1.,2,…，,s,s 为 ui 下 一 级 评估 因子 的 个 数 ,根据 不 同 的 因素 其 ; 值 不 
同 。 在 本 模型 中 ， 

1 二 {zn，z12) 二 {流量 变化 ,网 络 地 理 区 域 分 布 } 

Uz 二 {Xa ,X22 zzayZ2at} 一 (论坛 通道 与 情 信息 活性 ,新 闻 通 道 与 情 信息 活性 ,博客 / 微 博 
客 / 社 交 类 网 站 ,其 他 通道 与 情 信息 活性 } 

us 一 {7zal} 一 { 鼻 情 信息 内 容 敏 感性 } 
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mu 一 {zia} 一 { 和 催情 信息 态度 倾向 性 } 

对 于 每 一 个 因素 子 集 Xs 又 可 以 由 其 下 一 级 因素 子 集 Yi: 来 评判 ,x 二 1,2,…,w,w 为 
Xi 下 一 级 评判 因子 的 个 数 。 在 本 模型 中 ， 

Xu 二 {yu} 二 {流通 量变 化 值 } 

X12 一 {a1) 二 {网 络 地 理 区 域 分 布 扩散 程度 } 

Tl 二 和 yzn ,y212，y213，y214,y215，y216,y217,y218} 一 { 累 计 发 布 帖子 数量 ,发 帖 量变 化 率 , 累 
计 点 击 数量 ,点 击 量变 化 率 , 累 计 跟 帖 数 量 , 跟 帖 量 变化 率 , 累 计 转 载 数量 ,转载 量变 化 率 } 

X22 一 {y22l yy222 ，y223，y224,y225，y226，y227，y228 } 一 { 累 计 发 布 新 闻 数 量 , 发 布 新 闻 数 量变 
化 率 , 累 计 浏览 数量 ,浏览 量变 化 率 , 累 计 评 论 数量 ,评论 量变 化 率 , 累 计 转 载 数量 , 转 载 量变 
化 率 } 

X23 一 { y231,y232 ，y233，y234，y235，y235，y237，y238，y239} 一 { 累计 发 布 文章 数量 ,发 布 文章 数 
量变 化 率 , 累 计 阅 读数 量 , 阅 读 量变 化 率 , 累 计 评 论 数量 ,评论 量变 化 率 , 累 计 转 载 数 量 , 转载 
量变 化 率 , 交 际 广泛 度 } 

X24 二 {ya1) 二 {其 他 通道 与 情 信息 活性 值 } 

X31 二 (ya) 二 { 奥 情 信息 内 容 敏 感 程度 } 

Zu 二 {ysm) 二 { 奥 情 信息 态度 倾向 程度 } 

2. 确定 评估 集 

对 我 国 网 络 与 情 的 安全 性 评估 ,力求 通过 安全 评估 对 我 国 与 情 的 整体 安全 态势 做 出 量 
化 评分 ,从 而 确定 我 国 网 络 与 情 的 五 级 安全 预警 级 别 ( 即 绿 , 蓝 、 黄 , 橙 . 红 ), 因 此 建立 的 符合 
我 国 国情 的 网 络 与 情 安 全 性 评估 的 评估 集 应 能 合理 地 反映 和 呈现 我 国 网 络 与 情 的 安全 程 
度 , 同 时 确定 每 一 安全 程度 所 代表 的 安全 级 别 ,并 赋予 相应 的 得 分 。 

在 本 模型 中 ,评估 集 V 二 (vi,v2,v3,v4,vs) 二 {安全 , 较 安全 ,临界 , 较 危 险 ,危险 } 二 {5， 
4,3,2,1)。 如 表 7-1 所 示 。 


表 7-1 评估 尺度 表 





安全 等 级 /基线 评语 赋 分 
绿 安全 5 
蓝 较 安全 4 
黄 临界 3 
橙 较 危 险 2 
红 危险 1 


针对 表 7-1 所 示 的 5 个 危险 等 级 ,对 于 “临界 “ 较 危 险 ” 和 “危险 ”这 3 级 应 尤为 警惕 ,可 
采取 的 预警 应 对 措施 涵盖 以 下 4 方面 ,应 针对 不 同 的 与 情 信 息 采取 对 应 的 措施 。 

(1) 熏 情 玖 导 : 如 网 站 专题 .专家 访谈 、 权 威 媒体 评论 等 ; 

(2) 新 闻 发 布 : 如 发 言 人 专访 ,专题 新 闻 发 布 . 召 开 新 闻 发 布 会 等 ; 

(3) 媒体 联动 : 如 中 央 重 点 新 闻 网 站 、 地 方 重点 新 闻 网 站 、 国 内 主要 商业 门户 网 站 、 国 
内 有 重要 影响 力 的 论坛 以 及 大 众 传媒 之 间 的 媒体 联动 ; 

(4) 处 置 手段 : 如 追查 信 源 、 查 封 网 站 、 屏 蔽 频道 追究 法 律 责 任 等 。 
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3. 评估 指标 权重 的 确定 

权重 是 以 某 种 数量 形式 对 比 、 权 衡 被 评价 事物 总 体 中 诸 因素 相对 重要 程度 的 量 值 ,反映 
了 各 因素 在 评估 中 对 最 终 评估 目标 所 起 作用 的 大 小 程度 ,体现 了 单项 指标 在 整个 评估 指标 
体系 中 的 重要 性 。 确 定 权重 的 方法 很 多 ,如 定性 经 验 的 德尔 菲 法 (Delphi)( 也 叫 专家 法 ) 、 定 
量 数据 统计 处 理 的 主 成 分 分 析 法 ,以 及 定性 与 定量 相 结合 的 层次 分 析 法 (AHP) 等 。 本 文采 
用 的 是 层次 分 析 法 来 确定 各 个 评估 指标 的 权重 , 它 是 系统 工程 中 对 非 定 量 事件 作 定量 分 析 
处 理 的 一 种 简便 方法 ,大 体 上 可 按 下 面 三 个 步骤 进行 。 

1) 建立 递 阶层 次 结构 模型 

用 层次 分 析 法 处 理 问题 时 ,首先 要 把 问题 层次 化 。 根 据 问题 的 性 质 和 要 求 达到 的 总 目 
标 ,将 问题 分 解 为 不 同 的 组 成 因素 ,并 根据 因素 间 的 相互 关联 影响 以 及 隶属 关系 将 各 因素 按 
不 同 层次 聚集 组 合 ,形成 一 个 多 层次 的 分 析 结构 模型 。 最 终 ,把 总 的 分 析 归 结 为 最 底层 相当 
于 最 高 层 的 相对 重要 性 权 值 的 确定 或 相对 优 劣 次 序 的 排序 问题 。 

2) 构造 出 各 层次 中 的 两 两 比较 判断 矩阵 

设 某 一 个 评判 对 象 分 解 为 个 评估 因素 ui ,ws，,… ,us。 各 评估 因素 对 该 评判 对 象 的 相 
对 重要 度 为 wi ,rwws，… ,ws， 由 它们 组 成 权重 向 量 W=( wistws s**t,)T。 

为 了 能 反映 各 因素 的 相对 权重 ,由 评判 者 (一 人 或 多 人 采取 背靠背 的 方式 ) 将 n 个 因素 
予以 两 两 对 比 ,建立 判断 矩阵 4= (ay ),x, 元 素 as 是 因素 wi 与 因素 ww 相对 于 评判 对 象 重要 
性 的 比例 标 度 ,其 取 值 常用 1~9 的 比例 标 度 来 表示 。 

3) 计算 被 比较 元 素 的 相对 权重 

得 到 某 一 标准 层 的 两 两 因子 比较 矩阵 后 ,需要 对 该 准则 下 的 个 因子 wsus，… ,i 的 
相对 权重 进行 计算 ,并 进行 一 致 性 检验 。 常 用 的 计算 方法 有 军法、 和 法 及 根 法 。 其 中 ,宪法 
较 精确 ,后 两 种 方法 较 近 似 。 在 精度 要 求 不 高 , 且 要 求 计算 简便 时 ,应 采用 根 法。 具体 步骤 
为 : @ 将 矩阵 4 中 的 元 素 按 行 相 乘 ; 四 对 得 到 的 乘积 分 别 开 n 次 方 (n 为 矩阵 的 阶 ); 加 将 
方 根 向 量 归 一 化 得 排序 权 向 量 W; @ 进 行 一 致 性 判断 ,具体 过 程 如 下 。 

首先 计算 逢 隆 的 最 大 特征 根 es jms 一 2， 式 中 (Aw), 表示 Aw 的 第 i 个 
区 过 

再 计算 一 致 性 指标 CI， CI 一 ee 下 ,其 中 nn 为 矩阵 A 的 阶 。 

然后 计算 一 致 性 比例 CR: CR= 央 。 

对 于 "一 1,2，…,9,Saaty 给 出 了 RI 的 值 ,如 表 7-2 所 示 。 








表 7-2 RI 取 值 表 
n 和 2 g 4 5 6 7 8 9 
RI 0 0 0.58 0. 90 1 1. 24 1.32 1.41 1.45 


当 CR 一 0. 10 时 ,认为 判断 矩阵 的 一 致 性 是 可 以 接受 的 ,否则 应 对 判断 矩阵 进行 适当 修 
正 。 若 判断 能 通过 一 致 性 检验 ,第 3 步 得 到 的 排序 权 向 量 即 为 各 指标 的 权重 ; 若 不 能 通过 ， 
需要 重新 设置 判断 矩阵 ,进行 计算 ,直至 通过 为 止 。 

根据 层次 分 析 法 ,确定 我 国 网 络 与 情 安全 模型 中 各 评估 指标 的 权重 ,如 表 7-3 所 示 。 
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表 7-3 我 国 网 络 熏 情 安全 模型 中 各 评估 指标 的 权重 































































































评估 对 象 | 一 级 指标 | 权重 二 级 指标 权重 三 级 指标 权重 
流量 变化 zu 0.5 | 流通 量变 化 值 yu 1 
传播 扩散 “| 0.08 | 网 络 地 理 区 域 分 布 zs | 0.5 ee 全 和 区 | 9 
累计 发 布 帖子 数量 yz 0. 229 
发 帖 量变 化 率 ya2 0. 229 
累计 点 击 数 量 ys 0.042 
论坛 通道 与 情 信 息 活 0.453 点 击 量变 化 率 yo 0.042 
性 za 累计 跟 帖 数量 yams 0.078 
跟 帖 量变 化 率 ya 0.078 
累计 转载 数量 ya7 0.151 
转载 量变 化 率 yz1s 0.151 
累计 发 布 新 闻 数量 ys 0. 229 
发 布 新 闻 数 量变 化 率 yz 0. 229 
累计 浏览 数量 yz 0. 042 
新 闻 通 道 与 情 信息 活 ee 浏览 量变 化 率 yz 0. 042 
性 zzz 累计 评论 数量 yzzs 0.078 
网 络 与 | 民众 关注 uz |0. 245 评论 量变 化 率 yzzs 0.078 
情 安全 累计 转载 数量 yzz 0. 151 
转载 量变 化 率 yzzs 0.151 
累计 发 布 文章 数量 yoa 0.158 
发 布 文章 数量 变化 率 yz 0.158 
累计 阅读 数量 ys 0.078 
博客 / 微 博客 /社交 类 网 阅读 量变 化 率 yo 0.078 
站 与 情 信息 活性 zs 0. 290 | 累计 评论 数量 ywss 0.054 
评论 量变 化 率 yz36 0.054 
累计 转载 数量 ye 0.098 
转载 量变 化 率 yzas 0. 098 
交际 广泛 度 ya 0. 224 
其 他 通道 与 情 信息 活 ee 其 他 通道 与 情 信息 活性 
性 zz 值 yz 
内 容 敏 感 us |0.483| 与 情 信息 内 容 敏 感性 za 1 | 和 与 情 信息 内 容 敏 感 程度 yan a 
态度 倾向 w |0. 192| 与 情 信息 态度 倾向 性 zu 1 | 和 与 情 信息 态 度 倾向 程度 yo 1 




















4. 评估 指标 隶属 度 的 确定 

在 集合 理论 中 ,对 于 任何 一 个 元 素来 说 ,其 隶属 关系 只 有 两 种 : 或 者 属于 某 集 合 U, 或 
者 不 属于 这 一 集合 。 然 而 ,在 模糊 集合 理论 中 ,由 于 存在 模糊 性 , 论 域 中 的 元 素 对 于 一 个 模 
糊 子 集 的 关系 就 不 再 是 “属于 ”和 “不 属于 ”那么 简单 的 关系 ,其 对 该 模糊 集 的 隶属 程度 的 大 
小 即 隶属 度 , 取 值 在 0~1 之 间 。 在 进行 模糊 评判 的 时 候 ,如 何 建立 各 个 因素 对 应 各 个 评判 
等 级 的 隶属 程度 的 大 小 ,是 整个 评判 能 否 进 行 的 关键 。 确 定 隶 属 度 ,在 各 类 评判 中 有 不 同 的 
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方法 。 由 于 模糊 数学 本 来 就 是 解决 难以 用 完全 定量 的 方法 来 解决 的 问题 ,而 且 确 定 隶 属 函 
数 的 方法 多 数 还 处 于 研究 阶段 , 尚 没有 达到 像 概率 分 布 的 确定 那么 成 熟 的 阶段 ,所 以 ,隶属 
函数 的 确定 难以 避免 不 同 程度 上 人 为 主观 性 的 影响 ,但 是 无 论 其 受到 主观 性 的 影响 如 何 , 都 
是 对 客观 现实 的 一 种 有 逼近。 评判 隶 属 函数 是 否 符合 实际 ,主要 看 它 是 否 正确 地 反映 了 元 素 隶 
属 集合 到 不 属于 集合 这 一 变化 过 程 的 整体 特性 ,而 不 在 于 单个 元 素 的 隶属 度数 值 如 何 。 

对 于 我 国 网 络 与 情 安全 评估 模型 来 说 ,在 确定 了 评估 因素 集 、 评 估 集 和 各 评判 指标 的 权 
重 集 之 后 ,就 要 对 每 个 因素 进行 单 因素 评判 ,得 到 单 因 素 评判 向 量 , 从 而 建立 模糊 隶属 度 拢 
阵 , 以 确定 评估 指标 的 隶属 度 。 在 本 模型 中 ,30 个 三 级 评估 指标 可 归结 为 两 类 指标 : 一 类 
是 较 容易 用 数值 来 刻画 的 指标 ,如 流通 量变 化 值 .累计 发 布 帖子 /新 闻 / 博 文 数量 .累计 点 击 / 
浏览 /阅读 数量 及 变化 率 、. 累 计 回帖 /评论 数量 及 变化 率 . 累 计 转 载 数量 及 变化 率 就 属于 这 一 
类 指标 ; 而 另外 一 类 是 模糊 性 指标 , 即 无 法 用 数值 来 表示 的 指标 。 除 上 述 指标 之 外 ,其 余 的 
评估 指标 都 属于 模糊 性 指标 。 

对 于 第 一 类 可 用 数值 来 表示 的 指标 ,本 书 建议 利用 模糊 控制 中 常用 的 隶属 函数 的 确定 
方法 ,根据 经 验 预先 建立 模糊 综合 评判 隶属 度 子 集 表 ,从 而 使 得 所 建立 的 评判 模型 能 够 适应 
任何 时 候 、 任 何 评 佑 人 员 的 需要 ,具有 和 较 强 的 客观 性 、 实 时 性 和 可 操作 性 。 具 体 来 说 ,本 文 在 
构造 隶属 度 模糊 子 集 表 的 做 法 是 : 对 于 每 一 评估 指标 ,首先 由 不 同 的 语言 变量 对 其 优 劣 程 
度 进行 模糊 化 评判 , 即 可 借鉴 模糊 控制 原理 ,把 输入 模糊 化 ,把 输入 量 视 为 语言 变量 ,语言 变 
量 的 档次 因 指 标 而 异 , 诸 言 变量 的 隶属 度 函数 可 以 连续 函数 的 形式 出 现 , 也 可 以 离散 的 量化 
等 级 形式 出 现 ,由 此 可 以 以 各 档次 语言 变量 为 列 , 以 5 个 评估 等 级 一 一 安全 、 较 安全 、 临 界 、 
较 和 危险 ,危险 为 行 ,直接 根据 专家 的 经 验 和 概率 分 布 的 原理 构造 得 出 隶属 度 模糊 子 集 表 。 

对 于 第 二 类 不 能 或 难以 用 数值 表征 的 指标 ,由 于 它们 具有 一 定 的 模糊 性 ,各 指标 语言 变 
量 的 档次 较 难 区 分 ,如 针对 “与 情 信息 内 容 敏感 程度 "这 一 指标 来 说 ,不 同 的 评判 者 对 与 情 信 
息 内 容 敏 感 程度 的 看 法 不 尽 相 同 :“ 非 常 敏感 “比较 敏感 “一 般 敏 感 * 无 所 谓 ”“ 不 敏感 "的 
划分 界限 就 具有 了 一 定 的 模糊 性 。 那 么 ,对 这 一 类 指标 ,本 书 则 在 像 第 一 类 指标 那样 在 预先 
构造 隶属 度 子 集 的 基础 上 ,进一步 采用 模糊 优化 技术 得 到 较为 接近 真实 情况 的 隶属 度 。 本 
书 建议 利用 问卷 调查 法 ,统计 具有 同一 指标 语言 变量 的 频数 ,从 而 得 到 各 指标 对 不 同 档次 语 
言 变量 的 隶属 度 向 量 。 






































7.3 网 络 与 情 分 析 的 系统 框架 


一 般 来 说 ,网 络 与 情 分 析 系统 能 够 融合 智能 化 的 计算 机 信息 处 理 技术 ,以 实现 对 互联 网 
海量 信息 进行 自动 抓 取 、 提 取 、 分 类 、 聚 类 、 主 题 发 现 ,热点 监测 .专题 追踪 ,满足 主体 对 网 络 
与 情 监 测 和 敏感 信息 监测 报警 等 的 需求 。 一 方面 察 民情 、 体 民意 、 听 民 声 ,为 科学 决策 提供 
有 效 依据 。 男 一 方面 发 现 热点 ,发现 敏 点 ,发现 疑点 ,对 不 良 或 有 害 的 与 情 导向 及 时 发 现 ,有 
效 踊 堵 ,防微杜渐 ; 并 围绕 某 一 特定 专题 搜集 相关 新 闻 报 道 或 评论 信息 ,以 对 相关 信息 进行 
整理 分析、 综合 ,形成 相关 与 情 一 个 全 面 的 、 综 合 性 的 论述 ,在 准确 把 握 当 前 与 论 状况 的 基 
础 上 ,客观 全 面 地 对 与 情 做 出 评价 和 预测 ,提出 有 分 析 ` 有 根据 的 决策 建议 。 同 时 根据 与 情 
涉及 的 内 容 范 围 不 同 ,与 情 分 析 又 分 为 综合 性 和 专题 性 两 种 类 型 。 综 合 性 的 与 情 分 析 以 某 
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一 时 期 的 整个 社会 与 论 情况 作为 分 析 对 象 ,而 专题 性 的 与 情 分 析 则 是 以 围绕 某 一 特定 专题 
的 社会 与 论 情况 作为 分 析 对 象 的 。 基 于 以 上 分 析 , 可 以 得 出 奥 情 系统 的 基本 功能 要 涵盖 和 与 
情 采 集 、. 和 与 情 处 理 、 与 情 智 能 分 析 、 和 与 情 监测 、 和 与 情 预警 .与 情 搜索 、 和 与 情报 告 辅助 生成 .与 情 
自动 提醒 等 核心 功能 ,以 帮助 全 面 掌 握 与 情 动 态 , 正 确 进行 与 论 引导 。 

1. 网 络 舆 情 分 析 系 统 的 架构 

根据 对 系统 的 功能 分 析 及 对 未 来 网 络 与 情 发展 的 综合 考虑 ,在 系统 总 体 设 计时 应 采用 
流程 化 .标准 化 和 模块 化 的 总 体 设计 原则 。 在 理解 与 情 信息 处 理 流程 的 基础 上 ,将 系统 功能 
按 模块 划分 ,注意 保持 各 子 系统 模块 相对 独立 、 接 口 定 义 清 晰 并 且 模 块 之 间 松 散 耦 合 ,使 系 
统 具有 较 好 的 灵活 性 和 扩展 能 力 。 

一 个 典型 的 奥 情 系统 业务 流程 如 图 7-1 所 示 。 














图 7-1 舆情 分 析 系统 业务 流程 


基于 系统 的 业务 流程 和 功能 分 析 , 网 络 与 情 分 析 系 统 主要 由 与 情 信 息 源 选择 .与 情 信 息 
采集 .与 情 信 息 分 析 、 与 情 信 息 报告 4 个 模块 组 成 。 智 能 化 的 与 情 信息 采集 模块 和 智能 化 的 
奥 情 信息 分 析 引 擎 是 整个 系统 的 关键 。 奥 情 信 息 源 的 选择 主要 依据 人 工 设 定 的 方式 和 机 器 
学 习 的 方式 进行 选择 。 对 关注 度 较 高 的 新 闻 网 站 和 BBS 论坛 等 信息 源 进行 搜索 排序 ,并 将 
搜索 整理 结果 进行 初步 的 分 类 、 聚 类 ,保存 结果 URL 至 本 地 的 地 址 数据 库 中 ,形成 针对 性 
和 普遍 性 相 结 合 的 与 情 信息 源 以 保证 与 情 信息 收集 的 广泛 与 准确 。 

与 情 采 集 模 块 主要 根据 地 址 数据 库 传递 过 来 的 地 址 URL 对 相应 地 址 的 Web 页 面 内 容 
进行 抓 取 , 采 取 网 页 净化 、 网 页 去 重 、 文 本 分 词 .文本 特征 表示 、 特 征 降 维 等 技术 ,将 经 过 处 理 
的 文档 转换 为 适合 于 分 类 、 聚 类 等 挖掘 算法 的 表示 形式 , 存 和 人 和 与 情 数 据 库 。 和 与 情 分 析 引 擎 将 
存 人 与 情 数 据 库 的 与 情 信息 进 行 精确 的 分 类 与 聚 类 ,进行 智能 自动 关键 词 标 引 、 热 点 敏 点 词 
汇 标注 、 倾 向 性 分 析 , 然 后 形成 智能 文摘 简报、 报表 等 传递 给 与 情报 告 前 台 , 同 时 对 处 理 过 
后 的 数据 青 次 存 人 与 情 数据 库 , 为 后 继 的 统计 、 分 析 、 和 与 情 检 索 提 供 根据 。 系 统 的 架构 如 
图 7-2 所 示 。 

2. 关键 技术 分 析 

1) 与 情 搜 索引 擎 

与 情 搜 索引 擎 是 整个 系统 的 基础 ,包括 与 情 信 息 源 的 选择 和 与 情 信 息 的 采集 。 搜 索 的 
广度 和 深度 在 很 大 程度 上 决定 了 整个 系统 的 工作 效能 和 水 平 。 广 度 保 证 了 与 情 监 测 的 实时 
性 ; 深度 保证 了 奥 情 信息 热点 、 敏 点 、 焦 点 信息 发 现 的 准确 性 。 通 常 搜 索引 擎 是 指 根据 一 定 
的 策略 、 运 用 特定 的 计算 机 程序 搜集 互联 网 上 的 信息 ,在 对 信息 进行 组 织 和 处 理 后 ,为 用 户 
提供 检索 服务 的 系统 。 奥 情 搜 索引 擎 须 在 传统 引擎 的 技术 上 更 进一步 。 主 要 应 用 3 个 方面 
的 技术 。 

(1) 网 络 抓 取 技术 。 利 用 搜索 引擎 特有 的 网 络 疏 虫 程序 ,顺应 着 超 链 接 抓 取 网 页 。 抓 
取 网 页 都 按照 一 定 的 周期 进行 。 有 别 于 传统 搜索 引擎 的 是 , 奥 情 搜索 引擎 既 采 用 传统 的 网 
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图 7-2 舆情 分 析 系统 架构 


络 疏 虫 又 采用 聚焦 疏 虫 ; 既 注重 下 载 网 页 的 广泛 性 ,又 注重 下 载 网 页 的 精确 性 。 不 同 于 注 
重 覆 盖 面 的 传统 疏 虫 ,聚焦 疏 虫 的 工作 流程 较为 复杂 。 首 先 , 疏 虫 根据 一 定 的 网 页 分 析 算 法 
过 滤 与 设 定 主题 无 关 的 链接 ,而 有 用 的 URL 链接 被 保留 下 来 形成 一 个 队列 ,然后 将 根据 一 
定 的 搜索 策略 从 队列 中 选择 下 一 步 要 抓 取 的 URL, 并 重复 上 述 过 程 。 直 到 达到 系统 的 某 一 
条 件 时 停止 。 

(2) 网 页 处 理 技术 。 网 页 抓 取 文件 后 ,要 经 过 预 处 理 才能 进行 与 情 分 析 。 先 把 Web 页 
面 上 与 文本 无 关 的 HTML 码 清洗 干净 ,对 文本 的 标题 及 文本 的 内 容 进 行 提取 。 不 同 的 新 
闻 网 站 和 BBS 论坛 的 网 页 结构 不 同 , 所 以 在 清洗 程序 中 采用 人 工 方式 和 机 器 学 习 的 方式 对 
网 站 的 结构 进行 学 习 , 设 定 抽取 模板 。 然 后 过 滤 内 容重 复 或 无 意义 的 网 页 ,对 文本 进行 分 词 
处 理 。 分 词 程序 采用 以 词典 为 基础 、 规 则 与 统计 相 结合 的 分 词 方法 ,综合 利用 基于 概率 分 析 
的 语言 模型 技术 ,有 效 提高 分 词 的 准确 性 ,解决 切 分 歧义 问题 。 

(3) 网 页 检索 技术 。 提 供 交互 界面 ,用 户 输入 检索 条 件 , 搜 索引 擎 返回 搜索 结果 。 除 了 
一 般 的 全 文 搜索 引擎 之 外 ,和 与 情 搜索 引擎 还 应 引入 一 种 元 搜索 引擎 ,元 搜索 引擎 在 接受 用 户 
查询 请 求 时 , 查 一 个 元 搜索 引擎 就 相当 于 查 多 个 独立 搜索 引擎 。 进 行 网 络 信息 检索 与 收集 
时 ,使 这 种 元 搜索 引擎 可 指定 搜索 条 件 , 从 而 既 提高 信息 采集 的 针对 性 ,又 扩大 了 采集 范围 
的 广度 , 收 到 事半功倍 的 效果 。 

2) 与 情 分 析 引 擎 

与 情 分 析 引 擎 是 整个 与 情 系 统 的 核心 , 它 建立 在 从 网 络 爬 虫 采 集 并 进行 初步 处 理 的 网 
页 数据 内 容 基础 上 。 主 要 功能 包括 : 一 是 对 用 户 检 索 信 息 的 概念 化 。 并 通过 概念 从 海量 信 
息 中 分 析出 用 户 真正 想 要 的 信息 ; 二 是 发 现 海量 信息 中 民众 关注 的 热点 、 焦 点 事件 ; 三 是 
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实现 对 热点 事件 的 追踪 ,并 能 形成 一 定 的 关联 分 析 和 趋势 分 析 。 该 引擎 主要 由 文本 分 类 文 
本 聚 类 、 事 件 处 理 等 模块 组 成 。 分 析 引 擎 的 主要 流程 是 把 数据 库 中 经 过 预 处 理 的 文档 通过 
文本 分 析 进 行 特征 提取 ,形成 向 量化 文本 。 接 着 采用 分 类 器 进行 文档 自动 分 类 ,将 分 类 后 的 
文档 进行 概念 聚 类 ,产生 概念 空间 ,然后 采用 神经 网 络 的 算法 建立 具有 联想 功能 的 语义 关 
联 。 最 后 为 用 户 提供 基于 概念 的 检索 查询 接口 ,并 通过 事件 处 理 提供 新 闻 事件 的 发 展 过 程 。 
流程 中 涉及 的 主要 技术 如 下 。 

(1) 文本 聚 类 。 基 于 相似 性 算法 ,自动 对 海量 的 无 类 别 文档 进行 归 类 ,在 对 文档 集 进行 
分 词 向 量化 后 ,得 到 特征 集合 ,然后 用 特征 提取 算法 根据 特征 评价 函数 ,从 全 部 特征 集中 提 
取 一 个 最 优 的 特征 子 集 , 对 特征 提取 后 的 特征 向 量 进行 微调 。 突 出 聚 类 重要 词 ,进行 聚 类 ， 
把 内 容 相 近 的 文档 归 为 一 类 得 到 聚 类 结果 ,并 自动 为 其 生成 主题 词 ,为 确定 类 目 名 称 提 供 方 
便 ; 最 后 自动 生成 与 情 专题 .重大 新 闻 事 件 追 踪 等 。 

(2) 文本 分 类 。 也 称 为 主题 分 类 ,核心 在 于 构建 一 个 具有 高 度 准确 的 分 类 器 ,通常 分 为 
5 个 步 又: 一 是 获取 训练 文档 集 ,初始 的 文档 集 来 自 以 上 步骤 中 的 文本 聚 类 ; 二 是 建立 文档 
表示 模型 ; 三 是 进行 文档 特征 选择 ; 四 是 选择 分 类 方法 ,主要 采用 KNN 和 支持 向 量 机 
(SVM) 相 结合 的 方法 ; 五 是 建立 性 能 评估 模型 。 通 过 以 上 5 个 步骤 对 采集 到 的 信息 进行 归 
类 处 理 , 为 下 一 步 的 主题 分 析 提 供 分 类 主题 集 。 

(3) 文本 倾向 性 分 析 。 在 对 文本 进行 分 析 时 ,不 仅 分 析 其 包含 的 主题 内 容 , 还 判断 它 的 
态度 和 立场 , 即 倾向 性 。 倾 向 性 分 析 对 与 论 热 点 的 思想 动向 ,倾向 和 走向 至 关 重 要 。 更 能 够 
从 数量 关系 上 揭示 与 情 的 特点 和 规律 。 目 前 信息 技术 领域 倾向 性 分 析 还 是 普遍 以 文本 分 类 
技术 为 基础 ,针对 每 个 特定 主题 的 每 种 倾向 。 都 需要 用 户 提供 训练 语 料 ,智能 性 不 高 。 近 年 
来 ,基于 语义 模式 的 自然 语言 处 理 方法 逐渐 引起 关注 ,是 与 情 系统 语义 行为 分 析 下 一 步 可 以 
选择 的 主要 技术 方向 。 


7.4 网 络 与 情 分 析 常 用 方法 


本 节 将 联系 网 络 与 情 分 析 的 实际 应 用 ,介绍 网 络 和 与 情 分 析 中 常用 的 方法 。 
7.4.1 高 仿真 网 络 信息 深度 抽取 


高 仿真 网 络 信息 (论坛 .聊天 室 ) 深 度 提 取 技 术 重 点 研究 智能 化 .高 效率 的 原创 网 络 互动 
式 动 态 信息 的 全 面 提取 ,并 形成 功能 齐全 、 性 能 稳定 的 动态 信息 提取 系统 。 该 系统 独立 地 对 
指定 网 络 动态 媒体 进行 信息 的 深入 提取 ,将 成 为 网 络 与 情 监测 预警 系统 中 重要 的 信息 获取 
功能 模块 。 

图 7-3 为 针对 网 络 熏 情 监 测 预警 系统 需求 设计 开发 的 高 仿真 网 络 信息 深度 提取 系统 功 
能 示意 框图 。 

整个 系统 可 以 分 为 定点 BBS/BLOG/ 聊 天 室内 容 提取 模块 .内容 元 余 性 与 完整 性 过 滤 
模块 ,以 及 查询 与 编辑 接口 模块 。 各 功能 模块 说 明 如 下 。 

(1) BBS/BLOG/ 聊 天 室内 容 提取 模块 。 该 模块 的 主要 功能 是 对 用 户 指 定 的 一 个 或 多 
个 信息 源 进行 遍历 式 的 信息 获取 。 通 过 用 户 指定 的 入 口 页 (Entry Page) 或 系统 猜测 人 口 
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7-3 ”高 仿真 网 络 信息 深度 提取 系统 功能 示意 图 


页 ,该 模块 以 多 线程 方式 使 用 智能 化 信息 提取 机 器 人 ,模拟 客户 /服务 器 通信 及 模拟 人 机 交 
互 ; 在 语义 分 析 的 基础 上 ,以 递归 调用 的 方式 完成 快速 ,彻底 的 远程 数据 本 地 镜像 。 需 要 指 
出 的 是 ,本 模块 充分 考虑 了 目前 互联 网 中 使 用 的 HTTP 1. 0/1. 1 协议 ,尤其 是 与 内 容 协 商 
(Content Negotiation) ,访问 控制 (Access Control) 和 数据 缓存 (Web Catching) 的 相关 规 
定 , 在 提高 数据 提取 的 同时 保证 了 数据 的 可 靠 性 和 有 效 性 。 

(2) 内 容 宛 余 性 与 完整 性 过 滤 模 块 。 该 模块 是 对 在 本 地 镜像 的 网 站 内 容 进行 高 效 、 准 
确 理解 的 基础 上 ,对 完 余 信息 和 不 完整 信息 进行 相应 的 处 理 , 以 保障 信息 数据 库 中 内 容 的 准 
确 性 和 有 效 性 。 与 传统 的 文本 理解 或 图 像 理 解 不 同 , 本 模块 考虑 的 对 象 是 包含 了 文字 、 图 像 
和 其 他 内 容 的 多 媒体 群 件 (通常 以 网 页 形式 出 现 )。 在 此 模块 中 将 采取 的 多 媒体 群 件 理解 技 
术 是 结合 了 国家 863 文本 分 级 和 图 像 理 解 研 究 成 功 的 综合 理解 技术 ,在 充分 利用 多 媒体 群 
件 理 解 中 环境 信息 量 大 这 一 优势 的 同时 ,将 群 件 中 个 体 理解 的 误差 降低 。 

(3) 查询 与 编辑 借口 模块 。 该 模块 将 为 外 界 的 系统 调用 提供 必要 的 信息 数据 库 操作 接 
口 。 常 见 的 信息 数据 库 操作 包括 查询 插入、 删除 和 修改 等 。 该 模块 将 作为 高 仿真 网 络 信息 
深度 提取 系统 和 外 界 系统 的 标准 信 令 与 数据 交互 接口 。 


7.4.2 高 性 能 信息 自动 提取 机 器 人 技术 

高 性 能 信息 自动 提取 机 器 人 是 高 仿真 网 络 信息 (如 论坛 .聊天 室 ) 深 度 提 取 系 统 的 基础 
模块 ,其 主要 功能 是 根据 用 户 或 系统 定义 ,将 指定 动态 /个 性 化 网 络 媒体 中 的 内 容 快速 、 准 确 
地 在 本 地 镜像 ,是 系统 正常 工作 的 基础 。 其 核心 要 求 是 对 动态 /个 性 化 的 网 络 内 容 快 速 、 准 
确 、 全 面 地 建立 本 地 镜像 ,主要 难点 是 对 客户 机 /服务 器 通信 的 模拟 、 内 容 语义 的 正确 分 析 和 

1. 个 性 化 可 配置 的 信息 自动 提取 技术 

随 着 HTTP 1.1 的 广泛 采用 ,内 容 协商 已 经 成 为 互联 网 信息 传递 中 常见 的 技术 。 客 户 
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浏览 器 向 网 站 提供 客户 的 偏好 ,例如 内 容 的 语言 .编码 方式 ,质量 参数 等 。 网 站 根据 实际 情 
况 尽 可 能 满足 客户 需求 。 一 般 的 信息 自动 提取 技术 ,如 Wget、Pavuk、Teleport 等 ,大 多 没 
有 很 好 地 考虑 这 一 问题 ,因此 不 能 保证 提取 的 内 容 与 实际 客户 浏览 器 取 回 的 版 本 相 一 致 , 当 
然 以 后 的 理解 和 分 类 也 就 没有 实际 意义 。 

个 性 化 可 配置 是 指 信息 提取 机 器 人 可 以 根据 用 户 或 系统 提供 的 个 性 化 信息 ,完成 与 网 
站 之 间 的 内 容 协商 ,将 核实 的 内 容 取 到 本 地 。 在 本 系统 中 将 使 用 的 信息 提取 技术 ,充分 考虑 
到 了 内 容 协商 机 制 ,在 机 器 人 的 信息 提取 过 程 中 ,通过 HTTP 1. 1 相关 原 语 的 交互 (如 
VARY) ,实现 对 内 容 协商 机 制 的 完全 模拟 ,保障 本 地 镜像 内 容 的 准确 性 。 

2. 互动 式 信息 的 智能 提取 技术 

在 网 站 中 ,客户 机 /服务 器 之 间 的 交互 除了 由 内 容 协商 完成 ,还 有 一 类 是 通过 人 机 对 话 
的 方式 。 以 BBS 为 例 ,用 户 通过 一 次 登录 (即使 是 匿名 登录 ) ,与 服务 器 之 间 完 成 一 次 通信 ， 
获得 身份 验证 信息 (通常 是 以 Cookie 等 形式 )。 在 以 后 的 交互 中 ,双方 凭借 此 信息 作为 身份 
的 识别 ,目前 ,一 般 的 信息 提取 技术 并 不 能 实现 这 一 功能 。 

在 网 络 僵 情 监测 与 预警 系统 建设 中 ,为 了 完成 对 指定 网 站 内 容 的 充分 挖掘 ,在 内 容 协商 
的 基础 上 ,提供 智能 化 的 人 机 交互 模拟 模块 。 基 于 HTTP 返回 码 , 需 要 获取 身份 验证 信息 
才 可 以 浏览 内 容 , 根 据 用 户 或 系统 的 配置 模拟 用 户 与 服务 器 之 间 进 行 对 话 ,将 此 类 内 容 取 
回 ,保障 内 容 挖 气 的 充分 性 。 

3. 网 页 编写 语言 的 实时 语义 理解 技术 

网 站 内 容 编写 技术 发 展 迅 速 ,从 早期 的 静态 HTML 和 普通 文本 图 像 内 容 ,已 经 发 展 到 
今天 各 种 动态 语言 和 包括 图 像 . 视 频 .音频 、 动 画 、 虚 拟 现实 (VR) 多 种 多 媒体 个 体 的 群 件 。 
这 给 网 站 自动 信息 下 载 带 来 了 新 的 挑战 。 与 传统 的 标记 型 语言 (Markup Language) 不 同 ， 
以 Script 为 代表 的 网 页 编写 技术 更 多 地 结合 了 一 般 程序 编写 的 技术 ,利用 浏览 器 作为 编译 
运行 的 环境 ,达到 内 容 动态 的 目的 ; 而 以 Flash 为 代表 的 技术 则 是 利用 浏览 器 插件 (Plug- 
In) ,将 多 媒体 群 件 内 容 打包 在 一 个 对 象 中 ,利用 插件 完成 对 此 对 象 的 解释 。 因 此 ,在 网 站 自 
动 信息 提取 中 ,必须 要 提供 对 这 样 两 类 技术 的 准确 语义 理解 , 才 可 以 将 其 中 的 多 媒体 个 体 对 
象 和 相应 链接 对 象 完整 取 回 。 

在 高 仿真 网 络 信息 深度 提取 系统 中 ,结合 系统 实用 性 需要 ,在 开发 各 种 网 页 编写 技术 理 
解 模块 的 同时 ,充分 强调 理解 技术 的 高 效 性 。 对 于 Script 类 的 语言 ,研究 和 开发 出 编译 .分 
析 和 执行 同步 操作 的 技术 ,以 充分 提高 系统 信息 提取 模块 的 效率 和 准确 度 。 

4. 多 线程 内 容 提取 技术 

相对 多 媒体 群 件 理解 和 分 类 而 言 , 远 程 内 容 提取 是 高 仿真 网 络 信息 深度 提取 系统 中 时 
间 和 资源 消耗 最 大 的 部 分 .因此 从 系统 设计 的 角度 ,采用 多 线程 技术 提高 内 容 提取 模块 的 性 
能 。 在 网 络 和 与 情 监测 与 预警 系统 中 ,根据 用 户 和 系统 设置 的 入 口 页 ,内 容 提取 模块 在 提取 入 
口 页 以 后 对 页 面 内 容 进行 语义 理解 ,将 分 析出 的 链接 重新 定义 为 入 口 页 实现 递归 调用 。 由 
于 单 进程 的 递归 调用 效率 低 , 在 网 站 规模 较 大 时 耗 时 太 大 ,因此 在 网 络 全 情 监测 与 预警 系统 
中 采用 多 线程 以 实现 递归 调用 方式 。 此 种 实现 将 可 以 保证 系统 的 高 性 能 。 
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7.4.3 基于 语义 的 海量 文本 特征 快速 提取 与 分 类 


基于 语义 的 海量 文本 特征 快速 提取 与 分 类 技术 重点 研究 针对 网 络 文本 媒体 ,特别 是 中 
文 媒体 的 基于 语义 的 特征 快速 提取 ,并 在 此 基础 上 形成 适合 网 络 和 与 情 预 警 监测 系统 需要 的 
基于 语义 海量 文本 特征 快速 提取 与 分 类 系统 。 该 系统 独立 地 对 各 个 信息 源 采集 入 库 的 信息 
进行 语义 分 析 , 特 别 对 信息 中 的 语义 特征 进行 统计 和 分 类 ,完成 对 原始 数据 库 的 预 处 理 ,为 
进一步 的 信息 聚合 分 析 与 表达 提供 相对 标准 化 和 正则 化 的 信息 库 。 该 系统 将 成 为 网 络 与 情 
监测 与 预警 系统 中 重要 的 信息 分 析 功 能 模块 。 

图 7-4 为 针对 网 络 与 情 监测 与 预警 系统 需求 ,设计 开发 的 基于 语义 的 海量 文本 特征 快 
速 提取 与 分 类 系统 功能 示意 框图 。 
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文本 特征 提取 








站 
基于 互联 网 网 络 媒体 特 
性 的 多 媒体 特征 提取 
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互联 网 与 情 信息 
作业 数据 库 
(标准 化 、 正 则 化 ) 


7-4 基于 语义 的 海量 文本 特征 快速 提取 系统 示意 图 


整个 系统 可 以 分 为 基于 分 词 的 文本 特征 提取 模块 、 基 于 字 频 统计 的 文本 特征 提取 模块 、 
基于 互联 网 网 络 媒 体 特征 提取 模块 ,以 及 分 类 特征 统计 分 析 模 块 。 

1. 基于 分 词 的 文本 特征 提取 模块 

基于 分 词 的 文本 特征 提取 模块 主要 采用 分 词 统计 特征 提取 的 技术 路 线 。 首 先 对 原始 信 
息 库 中 的 信息 进行 全 文 分 词 :接着 在 分 词 的 基础 上 进行 一 定 的 统计 分 析 , 并 将 原始 信息 库 中 
的 信息 进行 特征 提取 。 在 实际 系统 应 用 中 ,将 针对 文本 结构 比较 合理 ,用 词 比 较 规范 的 网 络 
媒体 信息 采用 该 模块 进行 文本 特征 提取 。 

2. 基于 字 频 统计 的 文本 特征 提取 模块 

基于 字 频 统计 的 文本 特征 提取 模块 主要 将 采用 字 频 统计 特征 提取 的 技术 路 线 。 不 难 发 
现 ,与 分 词 统计 相 比 ,在 字 频 统计 中 不 需要 经 过 分 词 的 过 程 , 系 统 整体 性 能 将 有 显著 提高 。 
在 字 频 统计 中 ,首先 对 原始 信息 库 中 的 信息 进行 全 文字 频 统 计 , 根 据 字 频 统计 结果 对 原始 信 
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息 进行 摘要 ,并 在 此 基础 上 实现 对 原始 信息 库 中 信息 的 特征 提取 。 在 实际 系统 应 用 中 ,将 针 
对 文本 结构 比较 复杂 ,用 词 无 明显 规范 的 网 络 媒体 信息 采用 该 模块 进行 文本 特征 提取 。 

3. 基于 互联 网 网 络 媒体 特征 的 多 媒体 特征 提取 模块 

众所周知 ,互联 网 中 的 网 络 媒体 有 和 一 般 传 统 媒 体 完全 不 同 的 结构 和 信息 。 由 于 网 络 
与 情 监测 与 预警 系统 处 理 的 主要 是 互联 网 网 络 媒体 信息 ,因此 充分 利用 互联 网 网 络 媒体 特 
征 ,实现 对 网 络 媒体 信息 的 多 媒体 特征 提取 具有 非常 重要 的 意义 。 基 于 互联 网 网 络 媒体 特 
征 的 多 媒体 特征 提取 模块 ,就 是 对 原始 信息 库 中 的 多 媒体 信息 (通常 是 含有 文字 和 图 片 的 网 
页 信息 ) ,进行 多 媒体 群 件 分 析 。 在 分 析 中 充分 利用 互联 网 的 网 络 媒体 特征 ,包括 模板 文件 
中 的 解释 信息 ,多 媒体 链接 结构 等 ,以 实现 对 于 多 媒体 信息 较为 准确 地 分 析 。 基 于 互联 网 网 
络 媒体 特征 的 多 媒体 特征 提取 模块 主要 完成 对 具有 大 量 图 片 的 多 媒体 信息 源 的 特征 提取 。 

4. 分 类 特征 统计 分 析 模块 

分 类 特征 统计 与 分 析 模 块 是 针对 前 述 3 个 模块 采集 的 互联 网 信息 库 特 征 信息 进行 进 一 
步 的 分 类 特征 统计 和 分 析 。 其 主要 功能 是 将 3 种 不 同 技术 路 线 得 到 的 结论 做 进一步 的 融合 
和 统一 ,以 保证 基于 语义 的 海量 文本 特征 快速 提取 与 分 类 系统 产生 的 互联 网 与 情 信息 作业 
信息 库 的 标准 化 和 正则 化 。 


7.4.4 多 媒体 群 件 理解 技术 


在 网 络 与 情 监测 与 预警 系统 中 的 基于 语义 的 海量 文本 特征 快速 提取 与 分 类 系统 提出 了 
对 于 网 络 媒体 的 主要 呈现 形式 一 一 多 媒体 群 件 的 理解 。 多 媒体 群 件 理解 主要 解决 对 以 网 页 
形式 出 现 的 多 媒体 群 件 的 整体 理解 。 理 解 的 方法 是 在 对 群 件 中 文本 个 体 和 图 像 个 体 的 内 容 
提取 基础 上 ,集合 环境 信息 ,对 群 件 做 出 整体 理解 。 

1. 综合 字 词 标点 和 模式 匹配 的 文本 核心 信息 快速 提取 

对 于 文本 的 理解 ,一 般 的 技术 都 是 对 关键 字 、 词 进行 统计 ,对 名 式 进行 匹配 等 ,在 一 般 的 
文本 理解 环境 中 可 以 保证 较 好 的 效果 。 但 在 网 络 与 情 监测 与 预警 系统 中 ,文本 理解 的 对 象 
和 目的 与 传统 的 文本 理解 不 同 。 在 与 情 网 络 监测 与 预警 系统 中 的 文本 理解 对 象 是 网 页 中 的 
文本 信息 。 与 传统 的 文本 理解 对 象 相 比 ,这 类 文本 通常 较 小 ,包含 了 比 文本 更 多 的 信息 (如 
HTML 中 的 排版 信息 ); 而 文本 理解 的 目的 是 为 了 进一步 的 分 类 ,因此 在 网 络 与 情 监测 与 
预警 系统 建设 中 ,采用 的 是 结合 基于 字 、 词 .标识 符 统计 信息 和 预定 模式 匹配 的 理解 技术 ,对 
文本 的 核心 信息 实现 快速 提取 。 

2. 图 像 核心 信息 快速 提取 技术 

在 网 络 与 情 监测 与 预警 系统 建设 中 采用 的 图 像 理解 技术 在 对 象 和 目的 上 也 具有 独特 
性 。 网 页 信息 中 的 图 像 通常 可 以 分 为 三 类 。 第 一 类 是 指示 性 图 标 ,一 般 尺 寸 小 ,信息 含量 
小 ; 第 二 类 是 主题 图 案 , 一 般 尺 寸 大 ,信息 为 配合 网 页 主题 ; 第 三 类 是 装饰 性 图 案 , 一 般 尺 
寸 中 等 ,与 网 页 主题 风格 相关 性 高 。 而 对 它们 的 理解 目的 是 为 了 下 一 步 的 分 类 ,因此 主要 解 
决 核心 信息 的 快速 提取 问题 。 结 合 网 站 内 容 理 解 与 分 类 的 需要 ,在 网 络 与 情 监测 与 预警 系 
统 建设 中 必须 要 解决 的 是 对 第 二 类 和 第 三 类 图 像 中 核心 信息 的 快速 提取 ,尤其 是 对 图 像 的 
文字 信息 进行 基于 模式 匹配 的 快速 提取 。 
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3. 综合 环境 信息 和 相关 媒体 信息 的 多 媒体 群 件 理解 技术 

作为 网 络 与 情 预警 监测 系统 的 主要 信息 源 , 多 媒体 群 件 (网 页 ) 还 含有 相当 丰富 的 环境 
信息 ,如 URL、 网 页 结构 和 网 页 间 链 接 信息 等 。 合 理 利 用 这 样 一 类 信息 ,可 以 提高 多 媒体 群 
件 的 准确 度 。 综 合 环境 信息 和 相关 媒体 信息 的 多 媒体 群 件 理解 技术 目前 还 没有 切实 可 行 的 
研究 成 果 。 在 网 络 与 情 监测 与 预警 系统 建设 中 ,可 以 采用 神经 网 络 的 实现 方法 ,选择 URL 
信息 、 网 页 结构 (媒体 比重 等 ) 、 网 页 间 链 接 信息 (如 链接 数 或 链接 页 属性 等 ), 以 及 群 件 内 部 
文件 个 体 的 理解 结果 作为 神经 网 络 的 特征 空间 (Feature Space) ,期 望 得 到 性 能 上 的 突破 。 


7.4.5 非 结 构 信 息 自 组 织 聚 合 表达 


非 结 构 信 息 自 组 织 聚 合 表达 重点 研究 的 是 针对 海量 非 结 构 化 信息 库 一 -互联 网 与 情 信 
息 作业 信息 库 , 实 现 无 主题 的 聚合 分 析 。 根 据 国 家 网 络 与 情 监测 部 门 的 与 情 监测 与 预警 业 
务 需 求 ,网 络 与 情 预警 系统 最 重要 的 功能 是 实现 自动 地 .无 人 工 干预 的 独立 与 情报 告 。 而 实 
现 该 报告 的 核心 步骤 ,就 是 通过 非 结构 信息 自 组 织 聚 合 表达 系统 ,对 前 述 互联 网 海量 非 结构 
数据 的 结构 化 数据 库 进 行 有 效 的 知识 发 现 和 数量 化 的 趋势 分 析 。 

图 7-5 为 针对 网 络 与 情 监测 与 预警 系统 需求 ,设计 开发 的 非 结构 信息 自 组 织 聚 合 表达 
系统 功能 示意 框图 。 
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与 情 热点 与 情 焦点 与 情 演变 舆情 关联 和 与 情 综合 
分 析 分 析 分 析 分 析 分 析 


7-5” 非 结构 信息 自 组 织 聚 合 表达 系统 功能 示意 图 


1. 数据 分 类 模块 

对 于 互联 网 与 情 信息 作业 数据 库 ,为 进行 进一步 的 聚 类 分 析 和 表达 ,首先 需要 对 数据 库 
进行 进一步 的 处 理 。 其 中 数据 库 分 类 , 即 Data Marting 是 相当 关键 的 一 个 步骤 ,数据 库 分 
类 的 主要 目的 是 对 海量 数据 库 进 行 预 处 理 ,将 数据 按 一 定 的 特征 进行 较为 粗 体 的 划分 ,为 进 
一 步 的 查询 和 挖掘 实现 简单 的 聚 类 。 在 数据 库 分 类 中 ,采用 更 多 的 是 经 验 和 常规 规则 ,这 也 
是 数据 分 类 模块 和 数据 挖掘 模块 最 大 的 区 别 。 

2. 数据 仓储 模块 

事实 上 可 以 将 网 络 和 与 情 的 监测 与 预警 工作 抽象 为 海量 互联 网 信息 库 的 挖掘 和 分 析 。 根 
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据 一 般 的 工作 数据 量 分 析 , 网 络 与 情 监测 与 预警 系统 产生 的 数据 库容 量 在 工 级 。 对 如 此 规模 
的 数据 库 进行 进一步 分 析 与 挖掘 的 时 候 , 时 效 性 和 系统 效率 是 现实 的 考虑 。 通 过 数据 仓储 模 
块 ,实现 对 于 网 络 与 情 工作 数据 库 的 仓储 化 改造 ,为 提高 进一步 的 查询 和 挖掘 效率 黄 定 基础 。 

3. 分 类 数据 库 数据 挖掘 引擎 模块 

分 类 数据 库 数 据 挖 掘 引擎 模块 实现 的 是 该 系统 的 核心 功能 一 一 非 结构 信息 的 自 组 织 聚 
合 表达 。 事 实 上 ,在 数据 挖掘 中 主要 使 用 的 技术 包括 分 类 分 析 技 术 (Classification) 和 聚 类 
分 析 技 术 (Clustering)。 尽 管 两 者 都 可 以 对 数据 库 中 潜在 的 知识 与 规律 进行 发 现 ,但 还 是 存 
在 明显 的 区 别 。 其 中 最 重要 的 差别 为 是 否 存在 先 验 的 知识 与 规则 。 对 于 分 类 技术 而 言 , 是 
在 先 验 知识 的 基础 上 对 数据 库 中 的 记录 进行 进一步 的 归 类 ,以 确认 先 验 知识 的 正确 性 。 对 
于 聚 类 技术 而 言 ,没有 所 谓 的 先 验 知识 ,而 是 根据 数据 本 身 的 临近 性 和 相似 性 进行 归并 。 在 
网 络 与 情 预 警 监测 系统 中 ,人 迫切 需要 的 是 对 互联 网 中 不 断 出 现 的 新 主题 和 新 热点 进行 及 时 
有 效 的 反映 。 因 此 ,在 网 络 与 情 监测 与 已 经 系统 建设 中 的 分 类 数据 库 数据 挖掘 引擎 模块 着 
重 于 聚 类 技术 的 使 用 ,重点 完成 对 于 海量 信息 库 的 无 主题 聚 类 分 析 ,实现 对 于 热点 、 焦 点 、 难 
点 、 疑 点 等 与 情 信息 的 发 现 。 


7.5 ”网络 与 情 分 析 的 典型 应 用 


伴随 互联 网 的 迅速 普及 ,各 式 各 样 、 良 劳 不 齐 的 发 布 内 容 日 渐 泛滥 ,传统 ,纯粹 的 “人 海 ” 
战术 已 经 无 法 满足 当前 互联 网 媒体 信息 监控 工作 的 实际 需求 。 不 过 基于 互联 网 媒体 发 布 内 
容 主 动 获取 分 析 挖 掘 与 表达 呈现 等 系列 技术 开展 互联 网 论坛 检测 工作 ,首先 需要 保证 相关 
检测 产品 对 于 目标 站 点 发 布 数据 的 提取 比率 , 即 监测 产品 信息 提取 部 分 的 具体 性 能 。 根 据 
当前 网 络 监管 部 门 对 于 互联 网 论坛 监控 工作 的 实际 应 用 需求 ,成 熟 的 互联 网 论坛 监控 产品 
必须 具备 针对 指定 信息 源 的 深度 挖掘 技术 。 所 谓 深 度 挖掘 ,并 不 是 业已 成 熟 的 追求 数据 引 
用 量 的 大 搜索 引擎 信息 采集 技术 ,而 是 利用 定向 搜索 手段 完成 针对 指定 信息 源深 入 全面 地 
发 布 内 容 提取 操作 。 

从 整体 框架 结构 角度 ,目前 互联 网 媒体 可 以 划分 成 匿名 可 浏览 与 须 登录 浏览 两 类 ; 从 
发 布 页 面 呈 现 风格 角度 ,仍然 属于 HTML 范畴 的 互联 网 论坛 帖 文 发 布 页 面 同 样 包含 静 态 
和 动态 两 类 ,其 中 动态 生成 的 论坛 帖 文 发 布 页 一 般 使 用 ASP、PHP 与 JSP 等 通用 脚本 语言 
予以 实现 。 虽然 匿 名 可 浏览 同时 发 布 页 面 属于 静态 类 型 的 目标 站 点 , 占 到 当前 互联 网 媒体 
的 绝 大 多 数 , 但 是 出 于 功能 全 面 性 与 产品 实用 性 等 多 方 考虑 ,面向 结构 过 异 `. 风 格 多 样 的 数 
据 发 布 源 实施 互联 网 媒体 信息 监控 工作 ,相关 监控 产品 信息 提取 部 分 还 须 具备 相当 高 的 普 
适 性 与 扩展 性 。 

关于 获取 信息 分 析 挖 掘 与 表达 呈现 方面 ,针对 异 构 的 互联 网 媒体 发 布 内 容 , 论 坛 信息 监 
控 工 作 在 要 求 获取 内 容 统一 存储 的 同时 ,对 于 在 海量 的 互联 网 媒体 信息 中 实现 热点 自动 发 
现 的 需求 明确 。 一 方面 , 异 构 信 息 归 一 化 存储 是 后 续 各 类 信息 处 理工 作 的 根本 保证 ; 另 一 
方面 ,基于 海量 数据 实现 论坛 热点 自动 发 现 ,更 有 利于 互联 网 媒体 监控 人 员 全 面 把 握 目 标 论 








互联 网 论坛 信息 监控 系统 充分 应 用 网 络 协商 与 人 机 对 话 模拟 等 先进 技术 ,基于 专项 研 
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发 的 “定点 网 站 深入 挖掘 ?机 制 ,实现 针 对 系统 目标 站 点 发 布 内 容 的 全 面 获取 。 在 提取 发 帖 
作者 、 发 帖 时 间 、URL ,标题 等 论坛 帖 文 关 键 信息 的 基础 上 ,监控 系统 对 于 每 份 帖子 进行 主 
题 信息 分 析 及 内 容 快 照 , 进 而 归 一 化 存储 来 自 异 构 站 点 的 发 布 内 容 。 监 控 系统 针对 获取 内 
容 关 键 信息 开放 单一 和 组 合 选项 “与 或 ?热点 查询 操作 ,最 终 呈 现 系统 目标 站 点 关于 社会 焦 
点 更 为 全 面 的 讨论 分 布 情况 与 话题 具体 内 容 。 另 外 ,监控 系统 借助 获取 内 容 主题 信息 提取 
操作 ,开放 热点 数据 报告 定制 功能 ,如 图 7-6 和 图 7-7 所 示 。 
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7-7 互联 网 论坛 信息 监控 系统 框架 结构 
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7.5.1 面向 互联 网 论坛 的 定点 站 点 深入 挖掘 机 制 


作为 互联 网 论坛 信息 监控 系统 核心 技术 之 一 ,定点 网 站 深入 挖掘 技术 主要 模拟 互联 网 
终端 网 页 浏览 行为 与 人 机 对 话 交互 方式 ,全 文 遍历 .选择 获取 系统 目标 站 点 人 口 网 页 所 含 超 
链接 对 应 内 容 。 监 控 系 统 根据 目标 论坛 具体 结构 ,采用 同类 分 组 、 周 期 轮 询 的 方式 ,多 进程 
实现 定点 网 站 深入 挖掘 机 制 ,最 终 完 成 针对 可 获取 站 点 87% 左 右 的 信息 提取 率 。 

监控 系统 统筹 考虑 目标 论坛 页 面 请 求 与 周期 轮 询 的 间隔 时 延 , 在 有 效 隐 藏 系统 自身 "网 
络 机 器 人 ” 式 的 信息 获取 行为 ,避免 遭遇 目标 论坛 封禁 的 基础 上 ,实现 对 于 中 等 讨论 热烈 程 
度 目标 论坛 平均 15min 左右 的 信息 提取 时 延 。 


7.5.2 异 构 数据 归 一 化 存储 与 目标 站 点 热点 查询 


联网 论坛 信息 监控 采用 重复 模式 匹配 技术 对 于 每 份 获取 内 容 进行 关键 信息 提取 操作 ， 
系统 首先 提取 内 容 发 布 人 发布 时 间 、URL .标题 等 获取 内 容 关 键 信息 ,进而 针对 每 份 获取 
内 容 进 行 主题 信息 分 析 及 内 容 快照 ,最 终 实 现 对 于 来 自 异 构 目 标 站 点 发 布 内 容 的 归 一 化 
存储 。 

基于 异 构 数据 归 一 化 存储 机 制 ,监控 系统 立足 于 统一 的 发 布 内 容 数 据 存储 空间 开放 目 
标 站 点 热点 查询 功能 。 监 控 系统 同时 提供 当前 热点 及 历史 热点 查询 操作 ,其 中 当前 热点 查 
询 针 对 系统 最 近 15 万 条 获取 记录 展开 ,全 面 呈现 新 近 热 点 在 系统 目标 站 点 中 的 讨论 情况 ， 
而 历史 热点 查询 操作 则 是 对 于 系统 所 有 获取 记录 展开 。 


7.5.3 监控 目标 热点 自动 发 现 功能 


互联 网 论坛 信息 监控 系统 借助 数据 归 一 化 存储 过 程 中 的 获取 内 容 信息 提取 操作 ,开放 
站 点 热点 数据 报告 定制 操作 ,对 应 数据 报告 可 以 包含 日 报 、 周 报 和 月 报 3 种 不 同类 型 。 





7.6 网络 与 情 分 析 的 发 展 趋势 


网 络 与 情 预 警 监测 系统 主要 完成 互联 网 海量 信息 资源 的 综合 分 析 , 提 取 支 持 政府 部 门 
决策 所 需 的 有 效 信息 ,目前 ,国内 外 政府 职能 部 门 与 研究 机 构 ,尤其 是 西方 发 达 国家 ,针对 该 
类 系统 应 用 与 技术 研发 投入 了 相当 的 资源 ,使 该 类 系统 与 技术 得 到 了 全 面 发 展 。 各 国 对 于 
通过 互联 网 捕获 与 掌握 各 类 政治 、 军 事 、 文 化 信息 ,都 从 战略 角度 予以 高 度 重视 ,以 美国 为 
例 , 为 提高 政府 对 信息 的 掌控 能 力 , 任 命 了 约翰 .内 格 罗 莲 特 为 首 任国 家 情报 局 长 ,重点 解 
决 多 渠道 信息 的 融合 和 统一 表达 ,提高 信息 控制 能 力 。 新 加 坡 、 法 国 等 国家 也 都 建立 了 类 似 
的 对 公开 信息 资源 进行 融合 .分 析 与 表达 的 系统 ,作为 其 政府 的 决策 依据 。 

美国 遭受 “9。11” 丽 怖 袭击 后 ,国会 随即 提议 设立 内 阁 级 国家 情报 局 ,美国 还 加 强 了 情 
报 机 构 的 建设 ,美国 防 部 下 属 的 情报 和 安全 司令 部 已 经 拟订 计划 ,建立 一 个 可 以 提供 各 种 信 
息 的 ,世界 上 最 大 的 全 球 情 报信 息 资 料 库 。 该 资料 库 将 记录 人 们 日 常生 活 中 的 每 一 个 细节 ， 
以 供 美 情报 部 门 今后 调用 。 美 国 军 方 希 望 其 能 成 为 一 个 巨大 的 电子 档案 馆 , 通 过 搜集 并 保 
存世 界 所 有 的 信息 资料 库 的 资料 (如 各 国航 空 公司 预订 机 票 名单 、 超 市 收 款 机 存根 、 手 机 通 
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话 者 清单 .公共 电话 记录 学 校花 名 册 、 报 刊 文章 .汽车 在 高 速 公路 上 的 行车 路 线 、 医 生 处 方 、 
私人 交易 完成 工作 情况 等 ) ,使 电子 档案 馆 成 为 “情报 全 面 分 析 系统 ”。 对 于 这 样 一 个 包罗 万 
象 的 信息 资料 库 ,美国 军 方 明确 其 信息 来 源 主 要 是 通过 互联 网 .报纸 .电视 .广播 及 各 国政 府 
和 民间 机 构 的 信息 网 络 经 过 筛选 和 汇集 的 信息 ,在 融合 的 基础 上 供 专 业 分 析 人 员 随 时 调用 。 
该 系统 可 以 帮助 情报 人 员 通 过 关键 谈话 ,有 关 和 危险 地 区 的 情报 .电子 邮件 、 在 互联 网 上 寻找 
后 追踪 有 关 炭 冶 的 资料 等 可 疑 的 “交易 ”痕迹 ,并 在 恺 怖 分 子 发 动 攻击 前 就 可 以 提供 预警 信 
息 ,抓获 罪犯 。 为 了 能 够 将 这 项 庞大 的 情报 搜集 计划 尽快 付 诸 实 施 , 美 国防 部 组 建 了 专门 的 
机 构 一 一 情报 识别 办 公 室 ,美国 国防 部 部 长 皮特 。 奥 尔 德里 奇 表 示 : 此 系统 建成 后 ,只 要 接 
通 计算 机 ,随时 都 可 以 全 面 了 解 到 各 种 交易 、 护 照 、 汽 车 驾驶 执照 、 信 用 卡 、 机 票 、 租 赁 汽车 、 
购买 武器 或 化 学 产品 .逮捕 通缉 令 和 犯罪 活动 等 信息 ,这 对 美国 安全 来 说 简直 太 重 要 了 。 
20 世纪 90 年 代 以 来 , 美 中 央 情报 局 一 直 在 采取 各 种 手段 和 实施 ,通过 发 展 各 种 网 络 侦察 技 
术 , 改 进 其 情报 的 搜集 和 人 处 理 能 力 。2004 年 11 月 18 日 ,美国 联邦 上 诉 法 院 做 出 裁决 ,允许 
司法 部 在 追踪 恐怖 分 子 和 间谍 嫌疑 对 象 时 ,有 权 使 用 包括 互联 网 邮件 检测 和 电话 窃听 在 内 
的 情报 搜集 手段 ,为 了 获取 犯罪 分 子 内 部 的 网 络 通信 线索 ,美国 联邦 调查 局 曾 向 包括 美国 在 
线 .Exctite@ Home 在 内 的 几 大 互联 网 服务 商 发 出 指令 ,要求 他 们 在 互联 网 服务 器 上 安装 窃 
听 软 件 ,把 截取 的 电子 邮件 作为 情报 来 源 。 美 中 央 情 报 局 也 早已 制定 了 内 容 广泛 的 互联 网 
情报 搜集 计划 。 它 主要 包括 两 个 方面 : 一 方面 是 尽早 进入 全 世界 各 公司 、 银 行 和 政府 机 构 
等 的 电脑 系统 进行 信息 收集 ; 另 一 方面 是 尽早 开发 出 能 便于 遍布 世界 各 地 情报 分 析 人 员 进 
行 交流 、 传 输 信息 的 计算 机 网 络 。 

英国 ,法国 .日 本 .新 加 城 等 国 也 都 在 开发 基于 互联 网 的 情报 分 析 和 预警 系统 。 种 种 迹 
象 表面 , 随 着 互联 网 对 社会 ,经 济 等 领域 的 影响 不 断 扩 大 和 深化 ,将 互联 网 视 为 最 大 的 公 
开 信息 资源 ,实现 网 络 情报 的 提取 和 知识 的 挖掘 ,已 经 成 为 各 国安 全 和 稳定 的 重要 手段 
之 一 。 

我 国政 府 同样 高 度 重 视 互联 网 信息 资源 的 合理 开发 和 利用 ,尤其 对 涉及 国家 与 社会 稳 
定 的 信息 捕获 和 分 析 技 术 的 研究 与 开发 。《 国 民 经 济 和 社会 信息 化 重点 专项 规划 ) 与 (关于 
我 国电 子 政务 建设 的 指导 意见 ) 中 明确 指出 ,对 于 互联 网 信息 资源 的 开发 和 利用 是 今后 一 段 
时 期 内 我 国文 化 与 信息 化 建设 方面 的 重要 内 容 。 这 表明 在 互联 网 信息 资源 开发 和 利用 的 竞 
争 中 ,我 国 已 迈 出 具有 重要 战略 意义 的 一 步 。 

总 体 而 言 ,该 领域 的 技术 发 展 趋势 可 归纳 为 以 下 几 个 方面 。 

1. 针对 信息 源 的 深入 信息 采集 

在 各 类 互联 网 信息 提取 分 析 系 统 或 技术 中 ,核心 技术 必然 包括 对 互联 网 公开 信息 资源 
的 广泛 采集 与 提取 。 以 常见 的 Hotbot、 百 度 等 搜索 引擎 为 例 ,其 核心 的 技术 路 线 是 以 若干 
核心 信息 源 为 起 点 ,通过 大 量 的 信息 提取 “机 器 人 ”(Agent 或 Spider) 完 成 对 信息 的 广泛 提 
取 , 虽 然 各 个 搜索 引擎 的 具体 实现 不 尽 相同 ,但 一 般 都 包含 5 个 基本 部 分 : Robot、 分 析 器 、 
索引 器 、 检 索 器 和 用 户 接口 ,其 基本 工作 原理 如 图 7-8 所 示 。 

传统 搜索 引擎 中 的 Robot ,一 般 采 用 广度 优先 的 策略 来 遍历 Web 并 下 载 文档 。 系 统 中 
维护 一 个 超 链 队列 (或 者 堆栈 ) ,包含 一 些 起 始 URL。Robot 从 这 些 URL 出 发 ,下载 相应 的 
页 面 ,把 抽取 到 的 新 超 链 加 入 队列 (或 者 堆栈 ) 中 。 上 述 过 程 不 断 递归 重复 ,直到 队列 (或 者 
堆栈 ) 为 空 。 为 了 提高 效率 ,常用 的 搜索 引擎 中 都 可 能 会 有 多 个 Robot 进程 /线程 同时 遍历 
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图 7-8 搜索 引擎 的 基本 工作 原理 图 


不 同 的 Web 子 空间 ,对 采集 到 的 信息 使 用 分 析 器 进行 索引 ,对 中 文 信息 而 言 ,通常 使 用 基于 
分 词 的 技术 路 线 进行 分 析 。 

索引 器 、 检 索 器 和 用 户 接 口 被 用 来 在 传统 搜索 引擎 中 实现 更 加 友好 的 用 户 索 引 和 
检索 。 

而 以 Hotbot 百度 等 为 代表 的 搜索 引擎 技术 , 即 俗称 "大 搜索 ”的 技术 ,并 不 能 完全 满足 
本 项 目 中 网 络 与 情 预 警 监测 系统 的 需求 。 具 体 而 言 “ 大 搜索 ”技术 的 主要 不 足 体 现在 对 子 
互联 网 定点 信息 源 信息 的 提取 率 ( 一 般 定 义 为 指定 时 刻 提取 信息 比特 数 /信息 源 信息 总 比特 
数 ) 过 低 , 究 其 原因 ,主要 有 两 点 : 一 是 在 “大 搜索 ”引擎 中 ,Robot 需要 同时 完成 广度 优先 和 
深度 优先 的 互联 网 信息 提取 ,而 事实 上 .同时 满足 广度 优先 和 深度 优先 设计 的 Robot 在 性 
能 与 可 靠 度 方面 均 存 在 一 定 的 缺陷, 由 于 此 类 Robot 带 来 了 巨大 的 网 络 与 服务 器 性 能 负 
荷 ,大 量 的 Web 服务 器 对 于 简单 .机械 的 Robot 行为 施行 了 很 大 的 限制 ; 二 是 目前 大 多 数 
Robot 并 不 能 够 访问 基于 框架 (Frame) 的 Web 页 面 、. 需 要 访问 权限 的 Web 页 面 ,以 及 动态 
生成 的 Web 页 面 ( 本 身 并 不 存在 于 Web 服务 器 上 ,而 是 由 服务 器 根据 用 户 提交 的 HTML 
表单 生成 的 页 面 ) ,如 "大 搜索 ?搜索 引擎 对 于 网 站 论坛 类 信息 提取 的 严重 不 足 。 

在 类 似 网 络 和 与 情 预 警 监测 系统 的 信息 采集 中 ,重点 需要 解决 的 是 定点 信息 源 信息 的 深 
入 和 全 面 采集 问题 。 国 内 外 的 研究 人 员 已 展开 定点 信息 源深 入 挖掘 技术 的 研究 和 开发 。 
“企业 级 "搜索 引擎 “个 性 化 "搜索 引擎 等 代表 了 该 领域 目前 重要 的 发 展 趋势 。 

2. 异 构 信 息 的 融合 分 析 

互联 网 信息 的 一 大 特征 就 是 高 度 的 异 构 化 ,所 谓 异 构 化 , 指 的 是 互联 网 信息 在 编码 、 数 
据 格式 及 结构 组 成 方面 都 存在 巨大 的 差异 ,而 对 于 海量 信息 分 析 与 提取 的 重要 前 提 , 就 是 对 
不 同 结构 的 信息 可 以 在 统一 表达 或 标准 的 前 提 下 进行 有 机 的 整合 ,并 得 出 有 价值 的 综合 分 
析 结 果 。 

对 于 异 构 信 息 的 融合 分 析 , 目 前 比较 流行 的 方式 可 以 分 为 两 类 。 

一 是 通过 采取 通用 的 具有 高 度 扩展 性 的 数据 格式 进行 资源 的 整合 。 其 中 ,具有 代表 性 
的 技 本 是 XML(Extensible Markup Language),XML 具有 结构 简单 ,易于 理解 的 特点 ,是 
目前 国际 上 广泛 使 用 的 用 于 异 构 信 息 融 合 分 析 的 重要 工具 。 它 可 以 很 方便 地 将 内 容 从 蜡 构 
文本 信息 中 分 离 出 来 ,XML 标记 的 文档 可 以 使 用 户 更 方便 地 提取 和 使 用 自己 想 用 的 内 容 ， 
并 使 用 自己 喜欢 的 表达 格式 。XML 为 异 构 信息 的 融合 分 析 提 供 了 基础 ,通过 XML 可 以 使 
内 容 脱 离 格式 ,成 为 只 和 上 下 文 相关 的 数据 ,以 便于 内 容 的 检索 、 合 并 或 者 利用 。 研 究 人 员 
在 XML 基础 上 定义 的 宏 数 据 (Metadata) 进 一 步 提 高 了 异 构 信 息 融合 分 析 的 准确 度 和 效 
率 。 宏 数据 是 关于 数据 的 数据 ,是 以 计算 机 系统 能 够 使 用 与 处 理 的 格式 存在 的 与 内 容 相 关 
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的 数据 ,是 对 内 容 的 一 种 描述 方式 ,通过 这 种 方式 可 以 表示 内 容 的 属性 与 结构 信息 。 宏 数据 
分 为 描述 宏 数 据 、 语 义 宏 数 据 、 控 制 宏 数据 和 结构 宏 数 据 ,在 内 容 管理 中 ,通常 是 宏 数 据 越 复 
杂 , 内 容 提升 价值 的 潜力 就 越 大 ,一 般 而 言 . 宏 数据 模型 的 产生 ,需要 一 个 面向 客户 内 容 管理 
的 通用 数据 模型 ,以 适应 客户 不 断 变化 的 需求 ,达到 提升 信息 价值 的 目的 。 宏 数据 一 旦 从 原 
始 内 容 中 提取 出 来 ,就 可 以 把 它 与 原始 的 内 容 分 开 , 单 独 对 它 进行 处 理 ,从 而 大 大 简化 了 对 
内 容 的 操作 过 程 ,实现 异 构 信 息 的 融合 分 析 。 另 外 ,语义 宏 数 据 与 结构 宏 数 据 还 可 用 于 内 容 
的 检索 和 挖掘 ,类 似 的 技术 还 包括 UDDI、UML 等 。 

二 是 采取 基于 语义 等 应 用 层 上 层 信息 的 抽象 融合 分 析 , 这 一 类 技术 的 代表 是 RDF、 
XML ,所 存在 的 问题 是 因为 XML 不 具备 语义 描述 能 力 ,所 以 在 真正 处 理 对 子 内 容 融 合 要 求 
比较 高 的 信息 时 ,难免 力不从心 ,为 此 ,W3C 推荐 了 RDF(Resource Description Framework) 标 
准 来 解决 XML 的 语义 局 限 。 

RDF 提出 了 一 个 简单 的 模型 用 来 表示 任意 类 型 的 数据 ,这 个 数据 类 型 由 节点 和 节点 之 
间 带 有 标记 的 连接 弧 所 组 成 ,节点 用 来 表示 Web 上 的 资源 , 弧 用 来 表示 这 些 资源 的 属性 。 
因此 ,这 个 数据 模型 可 以 方便 地 描述 对 象 (或 者 资源 ) 及 它们 之 间 关 系 。RDF 的 数据 模型 实 
质 上 是 一 种 二 元 关系 的 表达 ,由 于 任何 复杂 的 关系 都 可 以 分 解 为 多 个 简单 的 二 元 关系 ,因此 
RDF 的 数据 模型 可 以 成 为 其 他 任何 复杂 关系 模型 的 基础 模型 。 

在 实际 应 用 中 ,RDF 通常 与 XML 互 为 补充 。 首 先 ,RDF 和 希望 以 一 种 标准 化 、 互 操作 的 
方式 来 规范 XML 的 语义 ,XML 文档 可 以 通过 简单 的 方式 实现 对 RDF 的 引用 ,通过 在 
XML 中 引用 RDF ,可 以 将 XML 的 解析 过 程 与 解释 过 程 相 结合 ,也 就 是 说 ,RDF 可 以 帮助 
解析 器 在 阅读 XML 的 同时 ,获得 XML 所 要 表达 的 主题 和 对 象 ,并 可 以 根据 它们 的 关系 进 
行 推理 ,从 而 做 出 基于 语义 的 判断 。XML 的 使 用 可 以 提高 Web 数据 基于 关键 词 检索 的 精 
度 , 而 RDF 与 XML 的 结合 则 可 以 将 Web 数据 基于 关键 词 的 检索 更 容易 地 推进 到 基于 对 
象 的 检索 。 其 次 ,由 于 RDF 是 以 一 种 建 模 的 方式 来 描述 数据 语义 的 ,这 使 得 RDF 可 以 不 受 
具体 语法 表示 的 限制 。 但 是 RDF 仍然 需要 一 种 合适 的 语法 格式 来 实现 RDF 在 Web 上 的 
应 用 ,考虑 到 XML 的 广泛 采纳 和 应 用 ,可 以 认为 RDF 是 XML 的 良 伴 , 而 不 只 是 对 某 个 特 
定 类 型 数据 的 规范 表示 ,XML 和 RDF 的 结合 ,不 仅 可 以 实现 数据 基于 语义 的 描述 ,也 充分 
发 挥 了 XML 与 RDF 的 各 自 优点 ,便于 Web 数据 的 检索 和 相关 知识 的 发 现 。 

3. 非 结 构 信 息 的 结构 化 表达 

与 传统 的 信息 分 析 系 统 处 理 对 象 不 同 , 针 对 互联 网 信息 分 析 处 理 的 大 量 对 象 是 非 结 构 
化 信息 ,对 于 阅读 者 而 言 , 非 结 构 化 信息 的 特点 比较 容易 理解 ,然而 对 于 计算 机 信息 系统 处 
理 却 相当 困难 。 对 于 结构 化 数据 ,长 期 以 来 通过 统计 学 家 .人 工 智 能 专家 和 计算 机 系统 专家 
的 共同 努力 ,有 相当 优秀 的 技术 与 系统 成 果 可 以 提供 相当 准确 而 有 效 的 分 析 。 

对 于 从 非 结构 化 信息 得 到 结构 化 信息 ,传统 意义 上 我 们 将 其 归结 为 典型 的 文本 中 的 信 
息 提取 问题 ,这 是 近年 来 自然 语言 信息 处 理 领 域 里 发 展 最 快 的 技术 之 一 。 随 着 网 络 的 发 展 ， 
网 络 中 盛行 的 有 蜡 于 现实 社会 的 网 络 语言 为 该 类 技术 提出 了 新 的 挑战 ,一 般 而 言 ,文本 信息 
提取 是 要 在 更 多 的 自然 语言 处 理 技术 支持 下 ,把 需要 的 信息 从 文本 中 提取 出 来 ,再 用 某 种 结 
构 化 的 形式 组 织 起 来 ,提供 给 用 户 ( 人 或 计算 机 系统 ) 使 用 ,信息 提取 技术 一 般 被 分 解 为 5 个 
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层次 : 第 一 是 专 有 名 词 (Named Entity) ,主要 是 人 名 、 地 名 、 机 构 名 、 货 币 等 名 词性 条 目 , 以 
及 日 期 \ 时 间 、 数 字 、 邮 件 地 址 等 信息 的 识别 和 分 类 ; 第 二 是 模板 要 素 (Template Element)， 
是 指 应 用 模板 的 方法 搜索 和 识别 别名 词性 条 目的 相关 信息 ,这 时 要 处 理 的 通常 是 一 元 关系 ; 
第 三 是 模板 关系 (Template Relation) ,是 指 应 用 模板 的 方法 搜索 和 识别 专 有 名 词 与 专 有 名 
词 之 间 的 关系 ,此 时 处 理 的 通常 是 二 元 关系 ; 第 四 是 同 指 关 系 (Co-reference) ,要 解决 文本 
中 的 代词 指称 问题 ; 第 五 是 脚本 模板 (Scenario Template) ,是 根据 应 用 目标 定义 任务 框架 ， 
用 于 特定 领域 的 信息 识别 和 组 织 。 自 然 语言 处 理 研究 是 信息 提取 技术 的 基础 ,在 现 有 的 自 
然 语 言 处 理 技 术 中 ,从 词汇 分 析 , 浅 层 句法 分 析 、 语 义 分 析 , 到 同 指 分 析 、 概 念 结构 ,请 用 过 
滤 , 都 可 以 应 用 在 信息 提取 系统 中 ,例如 对 专 有 名 词 的 提取 多 采用 词汇 分 析 和 浅 层 句法 分 析 
技术 ; 识别 句 型 (如 SVO) 或 条 目 之 间 的 关系 需要 语 用 分 析 和 同 指 分 析 ; 概念 分 析 和 语 用 过 
滤 可 以 用 来 处 理事 件 框 架 内 部 有 关 信 息 的 关联 和 整合 , 随 着 传统 的 信息 提取 技术 向 基于 网 
络 的 文本 信息 提取 转化 ,基于 贝 叶 斯 概率 论 和 香农 信息 论 的 信息 提取 技术 逐步 成 为 重要 的 
主流 技术 。 这 一 流派 的 技术 主要 根据 单词 或 词语 的 使 用 和 出 现 频 率 来 识别 不 同文 本 在 上 下 
文 语 境 中 自己 产生 的 模式 。 通 过 判断 一 条 非 结 构 化 信息 中 的 一 种 模式 优 于 另 一 种 模式 ,可 
使 计算 机 了 解 一 篇 文档 与 某 个 主题 的 相关 度 , 并 可 通过 量化 的 方式 表示 出 来 ,通过 这 种 方 
法 ,可 以 实现 对 于 文档 中 文本 要 素 的 提取 、 文 本 的 概念 自动 识别 ,以 及 对 该 文本 相应 的 自动 
操作 。 目 前 ,该 技术 发 展 的 最 新 趋势 是 对 于 文本 的 信息 提取 ,已 经 形成 从 数据 集成 .应 用 集 
成 到 知识 集成 的 从 低 到 高 的 3 个 不 同 层 面 。 知 识 集成 实现 将 组 织 已 建立 的 非 结 构 化 数据 
库 , 使 用 先进 的 信息 采集 .信息 分 类 和 信息 聚 类 算法 ,通过 系统 自身 对 信息 的 理解 ,将 信息 依 
照 用 户 的 需求 ,充分 有 效 地 集成 为 整体 。 

综 上 所 述 , 完 成 非 结构 信息 的 结构 化 表达 ,是 针对 互联 网 信息 分 析 系 统 的 重要 发 展 趋 
势 ,并 且 已 经 取得 了 一 定 的 技术 成 果 。 

目前 国内 外 针对 互联 网 信息 资源 管理 与 控制 系统 ,技术 的 研究 取得 了 一 定 的 成 果 , 其 核 
心 是 根据 互联 网 信息 的 特点 ,结合 目前 现 有 相对 成 熟 的 技术 ,从 信息 的 采集 、 融 合 和 表达 等 
若干 重要 环节 进行 突破 ,最 终 达 到 系统 设计 的 辅助 决策 功能 。 





7.7 本 章 小 结 


网 络 与 情 具有 庞大 ,复杂 、 影 响 因 素 众 多 .动态 变化 等 特点 ,因此 ,对 网 络 与 情 安全 综合 
态势 进行 分 析 成 为 一 项 极其 复杂 的 系统 工程 。 当 前 网 络 和 与 情 分 析 正 处 于 从 网 络 与 情 研究 到 
大 数据 与 情 研 究 的 过 渡 期 ,本章 首先 分 析 了 互联 网 与 情 研究 的 现状 ,给 出 互联 网 与 情 分 析 的 
基本 思路 与 方法 ,说 明了 其 中 涉及 的 几 个 关键 技术 问题 。 结 合 现今 互联 网 与 情 现 状 , 本 章 给 
出 了 几 个 实际 互联 网 与 情 应 用 ,对 互联 网 与 情 分 析 系 统 的 构建 具有 参考 价值 。 网 络 与 情 分 
析 是 时 代 发 展 的 需要 ,可 以 防范 误导 性 与 论 危 害 社会 ,把握 和 保障 正确 与 论 的 导向 。 网 络 和 与 
情 分 析 是 一 个 包含 多 领域 知识 、 多 技术 手段 的 综合 性 技术 ,所 以 不 可 避免 地 存在 很 多 技术 上 
的 难点 和 问题 ,这 些 都 需要 更 深 一 步 的 研究 和 探索 。 
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am 上 oo 


习 题 


. 互联 网 与 情 具 有 什么 特点 ? 为 什么 要 对 与 情 进行 分 析 ? 

. 常见 的 网 络 与 情 分 析 技 术 包 括 哪些 环节 ? 

. 为 什么 说 一 般 的 网 络 搜索 技术 无 法 满足 网 络 与 情 分 析 的 需要 ? 

.网络 与 情 分 析 中 监控 目标 热点 自动 发 现 功能 主要 利用 了 哪些 典型 的 安全 技术 ? 
. 未 来 影响 网 络 与 情 分 析 及 预警 技术 主要 有 哪些 ? 


第 8 音 ” 开 源 情 报 分 析 


8.1 基本 概念 


8.1.1 开源 情报 分 析 的 概念 


所 谓 开 源 情报 ,是 指 通 过 对 公开 的 信息 或 其 他 资源 ,包括 报纸 /刊物 .电视 、 互 联网 等 进 
行 分 析 后 所 得 到 的 情报 。 开 源 情报 的 利用 其 实 比 人 们 更 感 兴趣 的 秘密 情报 的 使 用 更 古老 ， 
但 长 期 以 来 开源 情报 的 价值 远 不 及 秘密 情报 ,以 致 没有 得 到 专门 的 关注 。 然 而 ,现代 通信 技 
术 的 发 展 ,特别 是 因特网 的 出 现 和 网 络 时 代 的 来 临 ,已 彻底 改变 了 开源 情报 的 价值 ,地 位 和 
影响 。 随 着 互联 网 内 容 爆 炸 性 增长 ,利用 网 页 信息 提取 技术 和 数据 挖掘 技术 采集 情报 变 得 
越 来 越 重要 ,不 光 商 业 部 门 重视 开源 情报 的 挖掘 ,安全 部 门 也 开始 越 来 越 重视 开源 情报 , 历 
史上 的 间谍 卫星 和 地 下 间谍 组 织 不 再 是 这 些 安全 部 门 的 代名词 ,也 许 会 越 来 越 多 地 采用 
OpenSource. gov 方式 ,开源 情报 挖掘 将 扮演 越 来 越 重 要 的 角色 。 

据 国际 情报 专家 估计 ,目前 西方 发 达 国家 国家 情报 的 40% ~~95% 都 是 以 开源 情报 的 形 
式 获取 的 。 情 报 的 时 代 已 从 一 次 世界 大 战 前 的 人 员 情 报 (Humint) 二 次 世界 大 战 期 间 的 信 
号 情报 (Sigint) ,冷战 前 后 的 图 像 情报 (Imint) ,进入 当今 的 开源 情报 (OSint) 时 代 , 并 以 网 络 
情报 (Netint) 为 主要 特征 。 在 开源 情报 时 代 , 许 多 过 去 由 国家 垄断 独 有 的 机 密 信息 已 变 为 
个 人 随手 可 得 的 公开 资源 。 这 一 变化 根本 性 地 改变 了 个 体 与 组 织 ,特别 是 与 国家 组 织 的 权 
力 生 态 及 其 平衡 ,具有 深远 和 广泛 的 影响 ,并 将 深刻 地 改变 国家 安全 的 概念 、 内 涵 和 保障 措 
施 。 例 如 “9，11” 事 件 之 后 ,美国 立即 启动 了 获取 开源 情报 的 “全 面 信息 感知 CTIA) ”计划 ， 
野心 勃勃 地 企图 搜集 每 个 人 尽 可 能 多 的 信息 .从 上 网 行为 .信用 卡 记录 、 健 康 档案 .学 习 成 
绩 、 出 行 时 间 …… 包 罗 万 象 , 无 孔 不 人 ,以 致 次 年 被 纽约 时 报 披露 后 ,引起 社会 的 恐慌 , 惊 呼 
“没有 隐私 ”的 时 代 即 将 来 临 。 特 别 是 TIA 的 负责 人 ,前 国家 安全 顾问 庞 蒂 戴 克 斯 特 曾 是 臭 
名 昭著 的 “伊朗 门 ”事件 的 主角 ,更 引起 大 众 对 TIA 的 恐惧 和 懂 恨 , 以 致 2003 年 美国 国会 不 
得 不 解散 TIA。 但 据 今年 7 月 4 今天 美国 》 的 报道 ,TIA 的 许多 措施 仍 在 进行 ,并 在 为 联邦 
政府 研发 各 种 获取 开源 情报 的 秘密 数据 挖掘 工具 以 及 包括 ADVISE 和 ASAM 在 内 的 监控 
系统 。 迫 于 公众 压力 ,有 关 部 门 把 TIA 中 的 了 从 代表 ”全面 (Total)” 改 为 “恐怖 分 子 
(CTerrorist)”, 但 极 可 能 是 换 汤 不 换 药 。 

网 络 开源 情报 分 析 为 何 变 得 如 此 重要 ? 首先 是 由 于 其 内 在 的 价值 和 特性 。 较 之 传统 情 
报 , 网 络 开源 情报 更 加 全 面 综 合 和 系统 .更 能 够 显示 变化 的 趋势 和 规律 。 其 次 ,网 络 时 代 的 
到 来 ,使 得 开源 情报 的 这 些 特 征 更 加 突出 和 重要 ,并 必 不 可 少 。 因 为 网 络 空 间 已 逐渐 成 为 人 
们 生存 的 另 一 半 实 实在 在 的 空间 ,成 为 一 个 开放 、 复 杂 、 巨 大 的 海量 信息 源 。 更 重要 的 是 ,网 
络 时 代 中 各 类 社会 群体 的 形成 变 得 十 分 容易 ,而 且 其 动态 变化 更 快 ,更 难以 预测 ,其 组 织 形 
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式 更 广 ,更 深 不 可 测 , 这 一 时 代 的 特征 使 得 对 社会 态势 的 精确 把 握 变 得 必要 而 且 必须 ,而 开 
源 情报 是 进行 任何 社会 态势 分 析 的 基础 。 

著名 的 兰 德 公司 是 最 早 意识 到 必须 深入 研究 信息 与 社会 交互 作用 的 机 构 之 一 。 兰 德 研 
究 人 员 注 意 到 开源 信息 在 20 世纪 80 年 代 末 东欧 各 前 共产 党 国家 变革 中 的 重要 作用 ,提出 
了 利用 “人 工 社会 ”的 概念 分 析 各 类 信息 和 基础 信息 设施 对 不 同 社会 和 族群 的 冲击 。 它 们 认 
为 开源 信息 对 于 “封闭 社会 "的 影响 已 引发 ,或 更 直截了当 地 说 ,煽动 起 一 场 根 本 性 的 政治 权 
利 的 转移 。 而 且 , 在 可 以 预见 的 将 来 ,在 我 们 能 够 规划 的 最 远 处 ,没有 其 他 任何 的 东西 能 够 
比 信息 的 发 展 和 利用 更 快 地 改变 世界 ,就 连 人 口 和 生态 的 变化 也 不 能 如 此 深刻 或 迅速 地 改 
变 世 界 。 兰 德 的 研究 隐 示 了 在 数字 网 络 化 时 代 里 及 时 有 效 地 对 社会 状态 和 趋势 进行 动态 分 
析 的 重要 性 。 正 如 高 速 运动 和 极端 尺度 空间 里 的 研究 需要 现代 的 物理 科学 , 快 变动 态 、 传 播 
广泛 的 网 络 社会 也 必须 有 相应 的 精确 社会 科学 来 指导 ,而 开源 信息 是 其 根本 的 基础 。 

迄今 我 国 已 有 上 亿 的 “网 民 ”, 而 且 数 目 还 在 加 速 发 展 。 无 论 是 从 政治 上 还 是 经 济 上 ,这 
些 网 民 的 影响 可 能 远 远 超过 他 们 所 占 的 人 口 比例。 换言之 ,网 络 人 口 掌握 的 政治 经 济 资源 
和 所 具有 的 社会 影响 ,可 能 远 远 大 于 其 余人 口 的 总 和 。 尤 其 考虑 到 当前 我 们 国家 正 处 在 社 
会 转型 阶段 ,短期 内 各 种 矛盾 不 可 避免 ,特别 是 网 上 群体 往往 比 其 他 普通 社会 群体 更 有 影响 
和 活动 能 力 ,因此 我 们 就 更 要 正视 并 研究 网 络 开源 情报 与 网 络 社会 的 状态 和 趋势 ,为 国家 和 
社会 的 安全 和 发 展 及 时 提供 有 效 的 信息 ,为 相关 政策 的 制定 提供 科学 基础 。 

现今 网 络 已 经 进入 大 数据 时 代 , 科 技 情报 研究 面临 新 的 挑战 。 开 源 情报 分 析 的 手段 及 
工具 近年 来 呈 跳 跃 性 发 展 ,目标 要 求 也 越 来 越 高 , 正 从 科技 信息 向 科技 情报 ,进而 迅速 向 科 
技 解析 转化 。 面 对 欧美 发 达 国 家 已 将 大 数据 理念 与 技术 投入 开源 情报 的 实际 研究 中 ,目前 
我 国 科技 情报 领域 尚未 建立 对 国外 科技 政策 行动 .战略 规划 、 态 势 分 析 的 开源 情报 分 析 系 
统 , 难 以 及 时 、 系 统 地 收集 、 汇 总 和 分 析 国外 科技 情报 总 体态 势 ,对 于 互联 网 \ 数 字 出 版 物 、 公 
开 数 据 库 等 开源 载体 信息 难以 及 时 跟踪 感知 与 系统 掌握 ; 同时 ,已 有 的 基于 闭 源 情报 的 数 
据 采集 与 分 析 系 统 涉 及 数据 信息 范围 小 而 零散 ,情报 分 析 周期 较 长 ,情报 更 新 速度 较 慢 , 难 
以 快速 形成 整体 感知 与 全 局 智能 关联 分 析 ,难以 调集 优势 资源 与 专家 力量 进行 集中 研判 , 难 
以 迅速 做 出 科技 情报 研判 与 决策 。 在 这 样 的 背景 下 ,网 络 开 源 情报 研究 工作 吸 须 推进 大 数 
据 辅 助 决策 ,提升 对 科技 数据 资源 的 控制 能 力 ,构建 集 海量 数据 采集 、 处 理 、 综 合 分 析 与 应 用 
于 一 体 的 面向 大 数据 的 科技 情报 态势 解析 与 决策 的 情报 支撑 与 服务 系统 。 这 对 保障 国际 安 
全 、 国 家 安全 ,社会 安全 、 商 业 安全 和 个 人 安全 都 是 一 项 极其 重要 且 具 基础 性 、 战 略 性 和 前 上 脆 
性 的 研究 工作 ; 同时 ,这 方面 的 研究 对 促 生 知识 经 济 下 的 新 型 产业 也 至 关 重 要 , 事 关 国家 的 
核心 竞争 力 , 在 未 来 的 情报 竞争 中 占 得 先 机 。 


8.1.2 开源 情报 分 析 的 价值 


与 其 他 类 型 的 情报 工作 相 比 ,网 络 开源 情报 工作 的 价值 体现 在 以 下 三 方面 。 

1. 情报 收集 成 本 小 ,风险 低 

(1) 开源 情报 的 经 济 成 本 较 低 ,甚至 有 专家 认为 相 比 于 卫星 等 其 他 情报 工具 ,在 开源 情 
报 工作 上 的 投入 可 以 获得 更 大 的 回报 ,因此 对 于 那些 情报 工作 预算 吃紧 的 国家 ,完全 可 以 用 
开源 情报 替代 传统 的 秘密 情报 工作 。 

(2) 降低 情报 收集 工作 量 。 传 统 情报 工作 都 需要 专业 人 员 来 收集 情报 ,成 本 较 高 。 而 
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利用 维基 百科 等 Web 2.0 等 机 制 ,可 以 动员 机 构 内 的 所 有 人 员 以 及 社会 上 对 该 主题 感 兴趣 
的 人 员 来 共同 收集 情报 ,情报 成 本 大 大 降低 。 

(3) 开源 情报 工作 几乎 是 零 风 险 的 。 对 企业 和 社会 机 构 而 言 , 开 源 情报 可 以 避免 其 他 
情报 工作 中 可 能 存在 的 违法 或 违反 道德 的 风险 ; 对 国家 而 言 , 开 源 情报 可 以 避免 其 他 类 型 
情报 工作 常常 引发 的 外 交 纠 纷 。 

2. 开源 情报 内 容 更 加 丰富 

(1) 情报 具有 不 断 变化 的 属性 ,这 迫使 情报 工作 人 员 迅 速 简便 地 理解 外 国 社会 和 文化 。 
当前 的 威胁 来 源 快速 变化 而 且 地 理 上 分 散 , 情 报 分 析 工 作 往 往 很 快 地 从 一 个 主题 转换 成 另 
一 个 主题 ,情报 专家 需要 很 快 地 消化 关于 某 个 国家 的 社会 .经 济 和 文化 信息 ,开源 情报 可 以 
提供 这 些 详细 信息 。 

(2) 情报 人 员 需 要 借助 开源 情报 来 理解 那些 秘密 情报 。 虽 然 情报 人 员 创 造 了 大 量 秘密 
情报 ,但 与 某 个 主题 相关 的 秘密 情报 数量 总 是 有 限 的 。 而 情报 机 构 获 得 的 秘密 情报 往往 只 
是 只 言 片 语 ,如 果 只 根据 这 些 秘 密 情报 内 容 ,在 上 下 文 不 足 的 情况 下 ,情报 人 员 往 往 很 难 明 
白 某 份 情报 的 含义 。 而 开源 情报 可 以 提供 补充 ,让 情报 人 员 可 以 对 相关 情报 有 一 个 掌握 ,从 
而 真正 理解 某 份 秘密 情报 的 内 容 。 

(3) 开源 情报 有 助 于 研究 长 期 问题 。 因 为 秘密 情报 往往 内 容 零散 ,而 且 只 是 为 了 满足 
特定 需求 ,因此 这 些 情 报 往往 不 够 连贯 。 而 开源 情报 可 以 通过 公共 渠道 持续 获取 ,能 形成 较 
长 时 间 序 列 的 信息 ,因此 可 以 从 中 研究 关于 某 种 事物 的 长 期 规律 与 趋势 。 

3. 开源 情报 工作 具有 隐蔽 性 

(1) 开源 情报 可 以 保护 情报 源 和 情报 方法 。 有 时 候 人 们 从 秘密 情报 渠道 获得 了 情报 ， 
但 在 向 公众 说 明 或 与 对 手 交 涉 时 ,可 以 将 其 解释 为 从 开源 情报 途径 获得 的 ,这 样 可 以 避免 暴 
露 秘密 情报 源 以 及 情报 渠道 。 

(2) 开源 情报 可 以 保护 自身 的 战略 意图 。 传 统 情报 工作 往往 需要 采用 各 种 人 工 或 技术 
手段 到 对 方 系统 中 进行 情报 刺探 .一旦 被 对 方 发 现 踪迹 , 对方 就 可 以 根据 情报 搜索 内 容 推断 
己方 的 意图 ,而 开源 情报 工作 完全 在 自己 国家 或 机 构 内 部 进行 ,对 方 无 法 察觉 ,自然 也 无 从 
推断 自身 的 意图 。 当 然 , 鉴 于 开源 情报 的 来 源 问题 ,其 也 存在 许多 不 足 之 处 。 

Qa 信息 量 大 .信息 过 载 ,需要 花费 大 量 精力 来 筛选 有 用 情报 。 虽 然 目前 已 有 许多 用 
于 信息 提取 和 过 滤 的 IT 产 品 .但 在 实际 工作 中 仍 需 要 大 量 的 人 力 来 从 事 开 源 情报 筛选 
正 作 。 

@ 信息 的 真实 性 难以 确定 。 首 先 .报纸 、 网 络 等 公开 载体 上 的 信息 往往 有 很 大 的 随意 
性 ,鱼龙混杂 ,可 靠 性 较 差 。 其 次 ,有 些 国家 和 社会 机 构 出 于 某 种 目的 .可 能 会 故意 散播 虚假 
信息 ,为 此 开源 情报 工作 中 往往 需要 从 不 同 来 源 对 获得 的 情报 进行 确认 。 





8.2 开源 情报 分 析 的 发 展 和 研究 


近年 来 ,欧美 等 发 达 国 家 越 来 越 重 视 网 络 开源 情报 工作 ,逐步 建立 起 比较 完整 的 开源 情 
报 工作 体系 。 下 面 简要 介绍 美国 和 欧洲 国家 的 开源 情报 工作 状况 。 美 国 是 开源 情报 工作 的 
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急 先锋 。2005 年 美国 国家 情报 主任 办 公 室 成 立 了 开放 源 中 心 (Open Source Center, OSC)， 
2006 年 又 立法 启动 了 国家 开放 源 事业 计划 (National Open Source Enterprise，NOSE ) , 专 
注 网 络 公开 信息 的 搜集 、 共 享 和 分 析 , 而且 规定 任何 情报 工作 必须 包含 开源 成 分 。 通 过 
OSC, 美 国力 图 实现 在 任何 国家 、 从 任何 语言 中 获取 开源 情报 的 能 力 ,获取 有 关 国 家 军事 、 国 
防 、 政 府 、 社 会 和 经 济 方面 大 量 的 有 价值 情报 ,其 中 因特网 是 其 主要 的 开源 情报 源 。 这 些 工 
作 取 得 了 很 好 的 效果 , 据 美国 中 央 情 报 局 的 统计 ,2007 年 的 情报 收集 总 数 中 超过 80% 来 自 
公开 情报 源 。 另 外 ,美国 政府 官员 和 民间 人 士 组 织 成 立 了 开源 情报 论坛 (Open Source 
Intelligence Forum) ,定期 召开 会 议 。 

欧洲 各 国 也 十 分 重视 开源 情报 工作 ,定期 举办 开源 情报 论坛 (EUROSINT)。 虽 然 欧洲 
国家 并 没有 像 美 国 那样 设立 专门 化 的 开源 情报 机 构 , 但 各 相关 政府 机 构 都 将 开源 情报 工作 
作为 自身 的 重要 工作 内 容 之 一 。 以 瑞士 为 例 , 瑞 士 联 邦 政府 建立 了 跨 部 门 的 开源 情报 工作 
组 ,联邦 国防 部 下 属 战 略 情报 中 心 (Strategic Intelligence Service, SND)、 军 事情 报 中 心 
(Military Intelligence Service, MND) 都 建立 了 制度 化 的 开源 情报 工作 体系 ,警察 部 下 属 的 
国内 情报 中 心 也 于 2001 年 建立 了 专门 的 开源 情报 工作 小 组 。 在 英国 ,英国 广播 公司 监测 处 
(BBC Monitoring) 是 一 个 十 分 重要 的 开源 情报 机 构 , 该 机 构 对 全 球 范 围 的 大 众 媒体 进行 甄 
选 和 翻译 ,为 英国 政府 提供 国外 媒体 和 宣传 的 参考 服务 。 该 机 构 最 大 的 股东 为 内 阁 办 公 室 ， 
外 交 和 联邦 事务 部 、 国 防 情报 组 以 及 其 他 情报 机 构 为 它 提供 了 大 量 经 费 支持 。 

澳大利亚 在 西方 国家 中 较 早 建立 了 专业 性 开源 情报 机 构 。 早 在 2001 年 ,澳大利亚 就 建 
立 了 国家 开源 情报 中 心 (National Open Source Intelligence Centre,NOSIC) ,为 联邦 政府 、 
各 州 政府 部 门 以 及 商业 机 构 提供 社会 安全 ,跨国 犯罪 .恐怖 主义 、 激 进 主 义 等 领域 的 开源 情 
报 监测 ,研究 和 分 析 支 持 。 同 时 ,一 些 国 家 安全 部 门 ,如 国家 评估 办 公 室 (The Office of 
National Assessments,ONA) 建 立 了 开源 情报 中 心 ,辅助 政府 制定 国际 政治 、 国 家 战略 以 及 
经 济 发 展 等 方面 的 战略 决策 ,确保 政府 得 到 国内 外 威胁 的 全 面 预警 。 

随 着 数据 挖掘 及 网 络 大 数据 分 析 技 术 的 发 展 ,美国 情报 机 构 与 军 方正 越 来 越 多 地 利用 
基于 机 器 学 习 的 分 析 平 台 , 从 类 似 社交 媒体 的 数据 源 中 甄别 所 需 的 有 效 数 据 。 五 角 大 楼 负 
责 人 称 , 这 些 工作 通常 属于 开源 情报 初步 分 析 。 同 时 ,美国 情报 界 正 花费 数 十 亿美 元 建设 地 
理 空间 情报 ,开源 的 数据 都 是 离散 的 ,例如 网 页 、 电 子 邮 件 、 即 时 消息 和 社交 媒体 。 结 果 从 事 
地 理 空间 情报 研究 的 人 经 常 归 为 * 人 文 地 理 ”。 情 报 分 析 所 面临 的 最 大 挑战 之 一 ,是 越 来 越 
大 的 离散 开源 数据 量 ,例如 那些 恶意 人 士 依托 Facebook 和 Twitter 进行 交流 和 扩张 。 因 
此 ,他 们 正在 通过 机 器 学 习 和 其 他 新 型 数据 分 析 技 术 实 现 开 源 情报 收集 自动 化 。 

Digital Reasoning 公司 的 认 知 计算 平台 Synthesys 扫描 离散 的 开源 数据 以 明晰 相关 的 
和 人物、 地点、 组织、 事件 和 其 他 事实 。 它 依靠 自然 语言 处 理 与 公司 所 谓 的 本 质 与 事实 的 提取 。 
该 平台 旨 在 通过 “关键 指标 ”和 框架 将 从 开源 数据 得 到 的 情报 自动 化 处 理 , 还 尝试 使 用 类 似 
的 算法 、 分 类 方法 和 本 质 解析 方法 来 集中 和 组 织 相关 联 的 离散 数据 。 最 后 ,使 用 图 像 分 析 以 
及 时 域 和 地 理 空间 推理 ,机 器 学 习 系 统 尝 试 得 出 基于 用 户 识别 的 机 遇 、 风 险 和 不 规则 的 开源 
情报 。 

其 他 数据 分 析 公 司 正在 采取 不 同 的 方法 来 收集 开源 情报 。 例 如 ,马萨诸塞 州 剑桥 市 的 
基础 技术 公司 正 致力 于 文本 分 析 软 件 的 开发 , 据 称 该 软件 能 够 识别 55 种 语言 的 姓名 和 地 名 
信息 。Rosette 分 析 软 件 的 输出 能 够 进行 可 视 化 并 链接 分 析 应 用 或 警报 系统 。Opera 服务 
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公司 2013 年 推出 一 种 算法 叫 作 “ 信 号 处 理 器 ”, 使 用 机 器 智能 检查 数据 流 来 识别 威胁 。 这 种 
工具 能 够 通过 专门 的 算法 来 分 析 社 交 网 络 、 网 上 论坛 和 其 他 开源 评论 ,以 便 帮 助 识别 威胁 。 
据 称 , 该 软件 的 处 理 能 力 超过 50 种 语言 的 2 亿 个 在 线 元 素 , 并 且 能 够 驾驭 8000 万 个 术语 和 
4.2 亿 项 关联 。 能 够 识别 各 种 威胁 并 按照 严重 程度 排序 。 
国内 在 网 络 开源 情报 分 析 领 域 做 了 许多 重要 的 工作 , 面 对 开 源 情 报 的 大 数据 时 代 , 化 柏 
林 教 授 等 提出 把 繁杂 的 大 数据 进行 合理 的 分 析 , 认 为 “大 数据 更 需要 清洗 ”。 在 网 络 海 量 信 
息 环 境 下 ,情报 研究 的 方法 体系 面临 新 的 挑战 。 同 时 ,情报 学 领域 研究 的 方法 众多 ,需要 特 
定 的 方法 体系 在 开源 情报 的 环境 下 快速 集成 ,从 多 维 角度 综合 反映 领域 研究 状况 的 宏观 、 微 
观 原貌 。2012 年 , 王 飞跃 提出 了 知识 产生 方式 和 科技 决策 支持 的 重大 变革 一 一 面向 大 数据 
和 开源 信息 的 科技 态势 解析 与 决策 服务 提供 了 集 快速 获取 文献 数据 并 支持 半自动 化 的 从 多 
维 角 度 进行 文献 解析 的 框架 ,该 框架 包含 了 ASKE (Application Specific Knowledge 
Engine) 与 科研 协作 等 采集 、 解 析 方 法 与 框架 。 该 框架 已 成 功 地 系统 应 用 于 智能 交通 领域 的 
学 科 动 态 分 析 中 ,为 该 领域 科研 人 员 提 供 良好 的 交互 服务 。 

综合 来 说 ,我 国 的 开源 情报 工作 具有 较 长 的 历史 ,各 级 科技 情报 所 、 与 情 工 作 部 门 等 都 
可 以 视 为 开源 情报 工作 的 一 部 分 。 近 年 来 ,各 级 情报 机 构 也 在 开源 情报 工作 方面 做 了 一 些 
新 的 探索 ,如 上 海 科 技 情报 所 建立 了 以 开源 情报 为 基础 、 面 向 行业 情报 服务 的 第 一 情报 网 。 
但 总 的 说 来 ,与 情报 工作 发 达 的 西方 国家 相 比 ,我 国政 府 和 社会 对 开源 情报 的 价值 仍 认识 不 
足 , 网 络 开源 情报 的 社会 和 技术 潜力 仍 没有 得 到 充分 的 挖掘 。 





8.3 开源 情报 分 析 的 指标 


开源 情报 的 可 靠 性 评价 指 一 则 可 靠 的 情报 应 能 提供 值得 信赖 的 信息 , 令 情报 用 户 接受 
其 建议 ` 相 信 其 产 出 。 而 "可 靠 ” 包 含 专业 性 (如 经 验 丰富 、 知 识 渊博 智慧 超群 等 ) 和 真实 性 
(如 诚实 、 客 观 、 良 好 等 ) 两 层 含义 。 在 可 靠 性 评价 时 ,两 层 含义 可 分 别 对 应 于 公开 源 情 报 的 
信息 源 和 信息 内 容 , 开 展 相互 独立 的 评价 工作 。 


8.3.1 信息 源 可 靠 度 


评价 指标 信息 源 是 指 传播 信息 的 机 构 , 如 报社 .出 版 社 . 电 视 台 、 广 播 台 、 政 府 宣传 机 构 
等 。 第 一 手 信息 源 能 直接 接触 和 完整 传递 信息 ,可靠 性 较 高 。 第 二 手 信 息 源 经 过 其 他 媒介 
传递 ,加 之 翻译 总结、 转述 、 节 选 等 原因 ,可 靠 性 有 所 下 降 。 权 威信 息 源 由 于 需要 对 政府 、 政 
党 .民众 .领导 等 机 构 或 人 员 负 责 , 往 往 还 需要 追踪 报道 ,所 以 较为 准确 。 评 价 信息 源 的 可 靠 
性 要 考查 它 是 否 依据 专业 标准 开展 工作 ,是 否 履行 核实 查证 程序 ,是 否 直接 接触 事件 或 信 
息 ,报道 是 否 全 面 . 真 实 、 客 观 、 及 时 ,能 否 持 续 跟 进 ,以 往 的 可 靠 性 水 平等 。 实 践 中 可 参考 如 
下 指标 。 

1. 形式 特征 

形式 特征 包括 信息 源 网 站 、 纸 质 出 版 物 . 电 子 出 版 物 内 外 包装 等 产品 或 媒介 的 排版 美工 
水 平 ,引用 图 片 的 清晰 度 、 大 小 ,纸张 质量 ,印刷 质量 ,印刷 错误 数量 及 程度 ,风格 是 否 稳定 统 
一 ,以 及 其 他 视觉 .触觉 等 可 以 评价 的 外 在 指标 。 
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2. 组 织 特征 

第 一 ,是 指 被 评价 的 信息 源 是 否 由 一 个 合法 组 织 来 管理 运营 。 例 如 网 站 或 出 版 物 是 否 
公布 了 该 组 织 的 地 址 ,电话 、 电 邮 等 联系 方式 ,是 否 公布 了 专门 的 联系 人 ,是 否 发 布 或 刊 出 过 
该 组 织 办 公 场 所 或 组 织 成 员 的 照片 ,是 否 能 查询 到 该 组 织 与 其 他 伙伴 、 客 户 , 特 别 是 其 与 上 
级 管理 监督 机 构 交 往 的 记录 。 第 二 ,上 述 联系 方式 是 否 有 效 , 能 否 顺畅 便捷 地 与 其 取得 联系 
并 交换 意见 。 第 三 ,是 指 管 理 运营 该 信息 源 的 组 织 的 专业 性 。 例 如 是 否 有 该 领域 的 专家 在 
组 织 中 供职 ,或 者 该 信息 源 的 作者 ,提供 多 位 该 领域 的 专家 、 权 威 或 高 水 平 人 士 ,以 及 该 组 织 
及 其 成 员 具 有 哪些 资质 和 资格 。 

3. 链接 特征 

对 于 网 站 ,要 考查 它 的 链接 是 否 为 死 链 ,是 否 指向 可 靠 性 较 低 的 信息 源 ,是 否 指向 以 营 
利 为 目的 的 信息 源 , 是 否 指向 与 本 信息 源 所 在 领域 无 关 或 相关 性 很 低 的 信息 源 。 对 于 印刷 
性 媒介 ,链接 主要 表现 为 它 介绍 .评价 .引用 、 参 考 的 其 他 信息 源 。 

4. 价值 特征 

可 靠 性 较 高 的 信息 源 会 围绕 某 领域 . 某 主题 展开 报道 和 论述 ; 将 方便 读者 、 帮 助 读者 作 
为 工作 目标 ,不 会 以 本 组 织 的 理念 职责、 成 绩 为 宣传 重点 ; 除 赞助 商 广告 外 一 般 不 发 布 商 
业 信 息 , 而 且 商业 性 内 容 会 与 主体 内 容 明确 区 分 开 。 从 立场 上 来 看 ,可 靠 的 信息 源 应 能 保持 
一 贯 的 立场 和 观点 ,各 期 内 容 不 会 出 现 明显 的 态度 转变 或 对 立 观点 。 


8.3.2 信息 内 容 可 靠 度 


评价 指标 评价 公开 源 情报 内 容 的 可 靠 性 ,第 一 要 明确 公开 源 数据 (Open Source Data， 
OSD) .公开 源 信息 (Open Source Information, OSI) 和 公开 源 情报 的 区 别 。OSD 是 指 印刷 
品 . 广 播 .口述 .照片 信件. 录音、 视频 等 原始 材料 。OSI 由 一 组 筛选 、 确 认 、 编 辑 后 的 OSD 
构成 ,用 以 表达 某 种 含义 。 而 OSINT 是 为 满足 特定 需求 .解决 特定 问题 而 有 意识 地 发 现 、 
辨别 ,提炼 ,并 推送 给 特定 客户 的 一 条 或 若干 条 OSI。 区 分 这 3 个 概念 有 助 于 从 更 为 总 括 的 
视角 驾驭 OSD 或 OSI ,避免 对 某 单一 素材 的 过 度 重 视 ` 有 意 忽略 或 曲解 。 

第 二 ,要 考查 信息 所 表述 的 内 容 是 否 合情合理 : 信息 本 身 是 否 存在 逻辑 冲突 ; 能 否 及 
时 更 新 ; 能 和 否 与 其 他 来 源 的 信息 相互 佐证 ; 如 与 其 他 来 源 的 信息 冲突 , 那 它 是 否 真实 。 事 
实 上 ,将 需要 评估 的 信息 与 其 他 来 源 的 相关 信息 进行 比较 ,是 最 常用 .最 有 效 的 可 靠 性 评价 
方法 。 

第 三 ,从 语言 学 角度 考查 。 高 可 靠 性 的 内 容 一 般 行文 直截了当 、 清 晰 准确 .诚实 得 体 ,不 
会 出 现 错别字 、 标 点 不 当 、 请 法 错误 ,语句 不 通 、 外 文 拼写 错误 等 低级 错误 。 

第 四 ,从 参考 引用 文献 角度 考查 ,高 可 靠 性 的 内 容 会 为 数字 主要 观点 标 引 出 处 。 这 实 
际 上 是 提供 了 鉴定 信息 质量 的 第 三 方 。 读 者 可 以 通过 超 链接 、 参 考 文献 .脚注 、 尾 注 等 途径 
查询 和 进一步 了 解 这 些 内 容 。 

当 评 价 工作 结束 后 ,要 对 一 条 信息 的 可 靠 性 水 平 进行 标记 。 美国 陆军 的 做 法 是 按照 可 
靠 性 依次 降低 的 顺序 ,将 信息 源 评价 结果 标记 为 A~FGF 表示 不 能 确定 ,而 非 可 靠 性 最 低 )， 
将 信息 内 容 评价 结果 标记 为 1 一 6(6 意义 同 F) 。 例 如 ,一 条 信息 来 自 最 可 靠 的 信息 源 , 并 且 
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信息 内 容 也 最 可 靠 , 那 它 的 标记 就 是 A-1。 

公开 源 情 报 来 源 广 ,种 类 多 ,难以 形成 一 种 规范 化 的 评价 方法 ,所 以 目前 多 使 用 专家 主 
观 评价 的 方式 。 该 方式 的 准确 性 多 依赖 于 评价 者 的 分 析 技 能 、 知 识 背景 和 相关 经 验 。 由 于 
评价 、 杜 别 后 的 情报 才 进 入 分 析 、 应 用 阶段 ,这 使 得 最 终 情 报 产品 的 质量 在 很 大 程度 上 取决 
于 评价 者 的 水 平 。 一 旦 评价 阶段 有 所 偏颇 或 廖 误 ,很 可 能 导致 决策 失误 , 带 来 损失 。 对 此 
“9。11? 报 告 在 结论 部 分 明确 指出 :“ 反 恐 分 析 的 质量 前 后 不 一 、 相 互 矛盾 ,许多 分 析 师 欠缺 
经 验 、 能 力 低下 、 训 练 不 足 ,而 且 缺 少 对 关键 信息 的 和 掌控。 这 导致 分 析 工 作 缺乏 创造 性 和 进 
取 性 ,理解 特定 情报 的 能 力 长 期 不 足 .? 基 于 上 述 原因 ,一 种 客观 ,规范 的 可 靠 性 评价 方法 应 
当 被 提出 ,并 在 公开 源 情 报 的 甄别 过 程 中 加 以 实践 。 如 前 文 所 述 “ 相 互 比较 "是 重要 的 可 靠 
性 评价 方法 之 一 。 围 绕 这 一 核心 ,有 学 者 设计 出 如 下 的 评价 思想 : 第 一 ,通过 某 一 信息 源 过 
去 一 定时 期 的 报道 与 之 后 被 证 实 的 事件 和 得 到 的 结论 之 间 的 比较 ,对 该 信息 源 的 可 靠 性 做 
出 评价 。 第 二 ,通过 某 则 报道 的 内 容 与 已 经 证 实 的 事件 和 得 到 的 结论 之 间 的 比较 ,对 该 则 信 
息 内 容 的 可 靠 性 做 出 评价 。 第 三 ,通过 可 靠 性 未 知 的 信息 源 报道 的 内 容 与 多 个 可 靠 性 得 到 
证 实 的 信息 源 报 道 的 同 主题 内 容 之 间 的 比较 ,对 这 一 可 靠 性 未 知 信息 源 做 出 评价 。 这 三 种 
思路 既 包括 历史 性 的 纵向 比较 ,也 包括 同一 时 期 内 的 横向 比较 ; 既 包 括 信息 源 内 部 的 自我 
比较 ,也 包括 信息 源 之 间 的 相互 印证 。 评 价 思路 如 图 8-1 所 示 。 

如 果 操 作 得 当 、 过 程 合理 ,上 述 思 想 应 能 改进 现 有 的 主观 评价 方法 ,实现 客观 性 、 规 范 性 
的 提升 。 目 前 ,公开 源 情 报 的 可 靠 性 评价 方法 还 存在 以 下 难点 需要 进一步 研究 : 第 一 ,不 同 
信息 源 类 别 的 转化 问题 。 即 如 何 高 效 准 确 地 将 文字 、 图 片 `. 语 言 、 视 频 等 资料 抽象 为 事件 说 
明 。 第 二 ,针对 中 文 信息 的 自动 过 滤 技 术 。 一 方面 ,由 于 中 文 分 词 的 困难 ,基于 关键 词 的 过 
滤 会 产生 大 量 无 价值 信息 ; 另 一 方面 ,由 于 同义词 .近义词 ,不 同 表达 方式 的 多 样 性 ,会 遗漏 
大 量 的 有 用 信息 。 第 三 , 当 不 同 信息 源 对 某 一 事件 或 观点 的 评判 相互 矛盾 不易 区 分 时 ,如 
































何 予 以 解决 。 
历史 性 纵向 比较 同时 期 借 向 比较 ， 信 息 源 之 间 相 互 印证 
某 信息 源 过 去 可 靠 性 已 知 可 靠 性 已 知 
一 定时 期 的 报道 信息 源 1 信息 源 2 
可 冤 性 已 知 可 靠 性 未 

已 证 实 的 事件 信息 源 n 知 信息 源 

已 得 到 的 结论 
可 合 性 已 知 
信息 源 5 

一 则 报道 内 容 











8-1 可 靠 性 评价 方法 设计 原则 图 示 
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8.4 开源 情报 大 数据 分 析 方 法 


8.4.1 数据 定量 分 析 


数据 作为 重要 的 资产 ,已 经 在 改变 着 组 织 决策 的 模式 。 有 效 收集 并 分 析 各 种 规模 的 大 
数据 资源 ,运用 多 种 方法 充分 挖掘 数据 的 最 大 价值 ,已 经 成 为 衡量 一 个 组 织 竞争 能 力 的 重要 
标志 。 人 们 已 经 充分 认识 到 , 随 着 大 数据 研究 的 深入 ,各 种 组 织 要 以 合理 的 投入 充分 发 掘 大 
数据 所 带 来 的 情报 价值 ,为 组 织 全 面 深入 地 洞察 态势 提供 支持 。Science 杂志 在 2011 年 ( 聚 
焦 数据 管理 ) 的 专辑 中 提出 :“ 科 学 就 是 数据 ,数据 就 是 科学 “数据 是 金 矿 “数据 推荐 科学 
的 发 展 “ 从 大 数据 中 发 所 大 洞察 "等 理念 意味 着 对 数据 分 析 提 出 了 新 的 、 更 高 的 要 求 。 可 以 
这 么 说 ,大 数据 时 代 就 是 数据 分 析 的 时 代 。 

大 数据 的 基础 在 于 数据 ,大 数据 的 特点 在 于 数据 体 量 巨大 、 数 据 类 型 繁多 、 数 据 价值 密 
度 较 低 、 处 理 速度 较 快 。 淘 宝 网 站 每 天 的 交易 达 数 千 万 ,数据 产生 量 超过 50TB。 百 度 公司 
每 天 大 约 要 处 理 60 亿 次 搜索 请 求 ,数据 量 达 几 十 PB。 一 个 8Mbps 的 摄像 头 1 小 时 能 产生 
3.6GB 数据 ,一 个 城市 若 安装 几 十 万 个 交通 和 安防 摄像 头 , 每 月 产生 的 数据 量 将 达 几 十 
PB。 医 疗 卫生 、 地 理 信 息 .电子 商务 .影视 娱乐 .科学 研究 等 行业 ,每 天 也 都 在 创造 着 大 量 的 
数据 。 根据 麦 肯 锡 全 球 研 究 院 (MGI) 预测 ,到 2020 年 ,全 球 数据 使 用 量 预计 达到 35ZB。 如 
何 处 理 超大 规模 的 网 络 数据 、 移 动 数据 .射频 采集 数据 ,社会 计算 数据 ,已 经 成 为 科研 界 和 产 
业界 吸 待 解决 的 关键 问题 ,也 是 大 数据 要 解决 的 核心 问题 。 大 数据 分 析 的 任务 是 对 数据 去 
宛 分 类 ,去 粗 取 精 , 从 数据 中 挖掘 出 有 价值 的 信息 与 知识 ,要 把 大 数据 通过 定量 分 析 变 成 小 
数据 。 定 量 分 析 方 法 包括 聚 类 分 析 、 关 联 规则 挖掘 、 时 间 序 列 分 析 、 社 会 网 络 分 析 、 路 径 分 
析 、 预 测 分 析 等 。 

情报 分 析 也 十 分 重视 数据 基础 。 早 期 的 情报 分 析 强 调 分 析 人 员 的 专业 背景 和 经 验 , 更 
多 地 依靠 人 的 智力 去 解读 特定 的 ,少量 的 数据 对 象 ,通过 人 员 的 分 析 、 归 纳 和 推理 得 出 情报 
研究 的 结论 。 随 着 科学 技术 的 迅猛 发 展 , 学 科 专业 呈现 综合 和 分 化 的 趋势 ,综合 的 趋势 要 求 
情报 分 析 人 员 具 备 跨 学 科 的 知识 ,分 化 的 趋势 表现 在 知识 分 支 划分 越 来 越 细 ,所 涉及 的 内 容 
越 来 越 专 深 。 与 此 同时 ,情报 分 析 面 临 的 数据 量 也 越 来 越 大 。 根 据 国 家 统计 年 鉴 的 数据 ,我 
国 每 年 发 表 的 科技 论文 已 超过 150 万 篇 ,专利 年 度 申 请 受理 量 超过 200 万 条 ,全 世界 每 年 的 
科技 文献 数 以 千 万 计 。 其 他 诸如 会 议 文献 .科技 报告 .技术 标准 等 科技 文献 的 增长 速度 也 是 
非常 迅猛 的 。 在 这 种 情况 下 , 仅 靠 人 力 本 身 已 经 无 法 胜任 情报 分 析 工 作 。 情 报 分 析 越 来 越 
多 地 依赖 以 计算 机 为 代表 的 信息 技术 ,利用 数据 挖掘 、 机 器 学 习 、 统 计 分 析 等 方法 ,运用 关键 
词 词 频 、 词 汇 共 现 文献 计量 等 定量 化 手段 ,通过 计算 或 者 在 计算 的 基础 上 辅 以 人 工 判断 形 
成 分 析 结 论 。 目 前 “用 数据 说 话 ? 已 经 成 为 情报 分 析 的 突出 特点 ,在 情报 报告 中 越 来 越 多 地 
使 用 数据 图 表 也 充分 说 明了 数据 定量 分 析 在 情报 分 析 领域 的 重要 程度 。 


8.4.2 多 源 数据 融合 
把 通过 不 同 渠 道 , 利 用 多 种 采集 方式 获取 的 具有 不 同 数据 结构 的 信息 汇聚 到 一 起 ,形成 
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有 具有 统一 格式 、 面 向 多 种 应 用 的 数据 集合 ,这 一 过 程 称 为 多 源 数据 融合 。 如 何 加 工 、 协 同 利 
用 多 源 信息 ,并 使 不 同形 式 的 信息 相互 补充 ,以 获得 对 同一 事物 或 目标 更 客观 、 更 本 质 的 认 
识 , 是 多 源 数据 融合 要 解决 的 问题 。 一 方面 ,描述 同一 主题 的 数据 由 不 同 用 户 、 不 同 网 站 、\ 不 
同 来 源 渠 道 产生 。 另 一 方面 ,数据 有 多 种 不 同 呈 现形 式 , 如 音频 、 视 频 、 图 片 .文本 等 ,有 结构 
化 的 ,也 有 半 结 构 化 ,还 有 非 结构 化 的 ,导致 现在 的 数据 格式 呈现 明显 的 异 构 性 。 

大 数据 的 特点 之 一 是 数据 类 型 繁多 ,结构 各 异 。 电 子 邮件 .访问 日 志 、 交 易 记 录 、 社 交 网 
络 、 即 时 消息 ,视频 、 照 片 . 语 音 等 ,是 大 数据 的 常见 形态 ,这 些 数 据 从 不 同 视 角 反映 人 物 、 事 
件 或 活动 的 相关 信息 ,把 这 些 数据 融合 汇聚 在 一 起 进行 相关 分 析 , 可 以 更 全 面 地 揭示 事物 联 
系 ,挖掘 新 的 模式 与 关系 ,从 而 为 市 场 的 开拓 、 商 业 模式 的 制定 .竞争 机 会 的 选择 提供 有 力 的 
数据 支撑 与 决策 参考 。 例 如 ,通过 搜索 引擎 的 检索 日 志 可 以 获取 用 户 关注 信息 的 兴趣 点 , 通 
过 亚马逊 淘宝 网 可 以 获取 用 户 的 电子 交易 记录 ,通过 Facebook、QQ 等 社交 网 站 可 以 了 解 
用 户 的 人 际 网 络 与 活动 动态 。 把 这 些 信息 融合 到 一 起 ,可 以 较为 全 面 地 认识 并 掌握 某 个 用 
户 的 信息 行为 特征 。 可 以 这 么 说 ,多 源 数据 融合 是 大 数据 分 析 的 固有 特征 。 

当前 ,情报 分 析 工 作 正 在 向 社会 管理 .工商 企业 等 各 行 各 业 渗 透 ,情报 分 析 与 研究 的 问 
题 往往 更 为 综合 ,涉及 要 素 更 为 多 元 ,同时 也 更 为 细 化 ,这 导致 单一 数据 源 不 能 满足 分 析 的 
要 求 , 需 要 不 同类 型 的 信息 源 相互 补充 。 同 一 种 类 型 的 信息 可 能 分 布 在 不 同 的 站 点 ,由 不 同 
的 数据 商 提供 。 例 如 ,论文 数据 的 来 源 包 括 万 方 数据 ,重庆 维普 .中 国 知 网 等 。 一 项 情报 任 
务 或 前 沿 领域 的 研究 ,仅仅 使 用 一 种 类 型 的 数据 是 不 全 面 的 ,如 果 把 期 刊 论文 学 位 论文 图 
书 、 专 利 项 目 、 会 议 等 信息 收集 起 来 ,融合 到 一 起 ,将 更 能 说 明 某 项 研究 的 整体 情况 。 另 外 ， 
行业 分 析 报告 .竞争 对 手 分 析 报 告 需要 关注 论坛 . 微 博 、 领 导 讲话 ,招聘 信 息 等 各 类 信息 ,以 
全 面 掌 控 行 业 数 据 、 产 品 信 息 、 研 发 动态 ,市场 前 景 等 。 同 一 个 事实 或 规律 可 以 隐藏 在 不 同 
的 数据 源 中 ,不 同 的 数据 源 揭示 同一 个 事实 或 规律 的 不 同 侧面 ,这 既 为 分 析 结 论 的 交叉 印证 
提供 了 契机 ,也 要 求 分 析 者 在 分 析 研 究 过 程 中 有 意识 地 融合 汇集 各 种 类 型 的 数据 ,从 多 源 信 
息 中 发 现 有 价值 的 知识 与 情报 。 只 有 如 此 ,才能 真正 提高 情报 分 析 的 科学 性 和 准确 性 ,这 不 
仅 是 对 情报 分 析 的 要 求 ,也 是 情报 分 析 发 展 的 必然 趋势 。 


8.4.3 相关 性 分 析 


所 谓 “ 相 关 性 ”, 是 指 两 个 或 者 两 个 以 上 变量 的 取 值 之 间 存在 某 种 规律 性 , 当 一 个 或 几 个 
相互 联系 的 变量 取 一 定 的 数值 时 ,与 之 相对 应 的 另 一 变量 的 值 按 某 种 规律 在 一 定 范围 内 变 
化 , 则 认为 前 者 与 后 者 之 间 具 有 相关 性 ,或 者 说 两 者 是 相关 关系 。 需 要 注意 的 是 ,相关 性 ( 相 
关 关 系 ) 与 因果 性 (因果 关系 ) 是 完全 不 同 的 两 个 概念 .但 常 被 混淆 。 例 如 ,根据 统计 结果 ,可 
以 说 “吸烟 的 人 群 肺癌 发 病 率 比 不 吸烟 的 人 群 高 几 倍 ”, 但 不 能 得 出 “吸烟 致癌 ”的 逻辑 结论 。 
我 国 概率 统计 领域 的 葛 基 人 之 一 陈 希 疆 院士 生前 常用 这 个 例子 来 说 明 相关 性 与 因果 性 的 区 
别 。 他 说 ,假如 有 这 样 一 种 基因 . 它 同时 导致 两 件 事情 .一 是 使 人 喜欢 抽烟 ,二 是 使 这 个 人 更 
容易 得 肺癌 。 这 种 假设 也 能 解释 上 述 统计 结果 ,而 在 这 种 假设 中 ,这 个 基因 和 肺癌 就 是 因果 
关系 ,而 吸烟 和 肺癌 则 是 相关 关系 。 

大 数据 时 代 在 数据 处 理 理念 上 有 三 大 转变 : 要 全 体 不 要 抽样 ,要 效率 不 要 绝对 精确 ,要 
相关 不 要 因果 。 在 这 三 个 理念 中 ,重视 相关 性 分 析 是 大 数据 分 析 的 一 个 突出 特点 。 通 过 利 
用 相关 关系 ,我 们 能 比 以 前 更 容易 、 更 快捷 、 更 清楚 地 分 析 事 物 。 只 要 发 现 了 两 个 事物 或 现 
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象 之 间 存 在 着 显著 的 相关 性 ,就 可 以 利用 这 种 相关 性 创造 出 直接 的 经 济 收益 ,而 不 必 非 要 马 
上 去 和 弄 清楚 其 中 的 原因 。 例 如 ,沃尔玛 超市 通过 销售 数据 中 的 同 购买 现象 (相关 性) 发 现 了 
啤酒 和 尿布 的 关系 、 蛋 扑 和 恨 风 的 关系 等 。 在 大 数据 环境 下 ,知道 “是 什么 ”就 已 经 足够 了 ， 
不 必 非 要 弄 清楚 "为 什么 ”。 典 型 的 例子 是 ,美国 海军 军官 英里 通过 对 前 人 航海 日 志 的 分 析 ， 
绘制 了 新 的 航海 路 线 图 ,标明 了 大 风 与 洋流 可 能 发 生 的 地 点 ,但 并 没有 解释 原因 。 对 于 想 安 
全 航海 的 航海 家 来 说 ,“ 什 么 "和 “哪里 ” 比 “ 为 什么 ”更 重要 。 大 数据 的 相关 性 分 析 将 人 们 指 
向 了 比 探讨 因果 关系 更 有 前 景 的 领域 。 这 种 分 析 理念 决定 了 大 数据 所 分 析 的 是 全 部 数据 ， 
通过 对 全 部 数据 的 分 析 就 能 够 洞察 细微 数据 之 间 的 相关 性 ,从 而 提供 指向 型 的 商业 策略 。 
亚马逊 的 推荐 系统 就 很 好 地 利用 了 这 一 点 ,并 取得 了 成 功 。 

相关 性 原理 也 是 情报 学 的 基本 原理 之 一 ,相关 性 分 析 也 是 情报 实践 的 常用 分 析 方 法 。 
任何 一 种 情报 结构 都 是 按 一 定 规则 相互 关联 的 ,分 析 并 揭示 情报 相互 关联 ( 即 相 关 性 ) 的 规 
律 和 规则 ,是 对 信息 .知识 ,情报 进行 有 效 组 织 检索 与 分 析 挖掘 的 基础 。 检 索 任 务 与 用 户 情 
境 的 相关 性 ,检索 结果 的 排序 都 是 典型 的 相关 性 分 析 , 共 词 分 析 ,关联 分 析 、 链 接 分 析 也 是 典 
型 的 相关 性 分 析 , 这 体现 了 相关 性 分 析 在 情报 学 学 科 发 展 中 的 地 位 。 在 实际 的 情报 分 析 工 
作 中 ,相关 性 分 析 应 用 更 加 广泛 。 不 同文 献 类 型 之 间 的 关联 分 析 , 不 同 机 构 之 间 的 关系 分 析 
都 属于 相关 性 分 析 。 例 如 ,根据 论文 与 专利 的 时 间 差 ,利用 论文 的 热点 预测 专利 技术 的 热 
点 : 根据 论文 的 合 著 关 系 ,分 析 企 业 、 研 究 所 、 高 校 之 间 的 合作 关系 等 ; 根据 企业 的 上 下 游 
企业 或 供销 存 关 系 , 分 析 产业 链 、 识 别 竞争 对 手 等 。 这 些 案例 实质 上 都 是 相关 性 分 析 的 具体 
应 用 ,在 情报 分 析 领 域 取得 了 非常 好 的 效果 ,其 中 有 些 已 经 成 为 情报 分 析 的 专门 方法 。 


8.5 开源 情报 分 析 系 统 框架 


8.5.1 系统 框架 


大 数据 时 代 , 开 源 情 报 分 析 的 生态 环境 发 生 了 巨大 的 变化 ,庞大 而 复杂 的 数据 考验 着 开 
源 情 报 分 析 系 统 的 技术 体系 结构 和 数据 处 理 能 力 。 建 设 集 数据 采集 、 处 理 、 综 合 分 析 、 服 务 
应 用 以 及 服务 可 视 化 于 一 体 的 开源 情报 综合 分 析 平 台 , 需 要 实现 面向 大 数据 的 信息 收集 与 
利用 ,为 情报 的 搜集 分析、 存储 和 相关 决策 等 提供 强 有 力 的 技术 支持 ,为 保证 科技 决策 的 准 
确 、 高 效 性 提供 可 靠 的 工作 平台 。 依 据 科技 情报 工作 的 操作 流程 ,根据 情报 收集 的 需求 采集 
原始 情报 ,然后 对 情报 进行 存储 、 索 引 、 整 理 和 深入 分 析 等 情报 加 工 工作 ,最 后 将 加 工 后 产 出 
的 相关 情报 信息 展示 给 用 户 。 基 于 情报 处 理 流程 ,可 以 将 整个 平台 划分 为 不 同 功 能 层 。 网 
络 开源 情报 综合 分 析 平 台 主 要 由 情报 采编 报 子平 台 、 情 报 感 知 分 析 子 平台 、 大 数据 服务 提供 
子平 台 构 成 ,功能 架构 如 图 8-2 所 示 。 基 于 各 层 的 功能 实现 ,可 以 完成 对 所 关注 情报 的 自动 
化 快速 \ 准 确 捕 获 。 通 过 对 情报 的 加 工 与 挖掘 ,能 够 有 效 地 为 相关 情报 工作 提供 情报 产品 和 
数据 分 析 支 持 ,并 方便 、 高 效 地 实现 情报 的 展示 和 推送 。 

1. 情报 采编 报 子 系统 

信息 采集 层 依托 开源 情报 数据 采集 体系 ,根据 采集 策略 ,实时 准确 采集 来 自 不 同 数据 源 
的 数据 ,并 对 数据 进行 抽取 结构 化 等 清洗 预 处 理 。 信 息 来 源 包 括 网 站 / 微 博 的 网 络 爬 虫 获取 





第 8 章 开源 情报 分 析 193 





的 数据 ,标准 资源 库 ,内 部 文件 .企业 /机 构 接口 数据 等 。 实 现 对 网 络 怜 虫 获取 的 原始 网 页 信 
息 进行 结构 化 数据 抽取 ; 支持 流 数据 及 动态 网 页 信息 的 抽取 ; 支持 网 页 中 内 徐 各 种 文档 格 
式 的 下 载 与 解析 ; 对 通过 各 接口 获取 的 数据 ,有 些 需要 识别 其 应 用 层 协议 数据 解密 之 后 再 
抽取 其 结构 化 的 数据 。 

2. 情报 感知 分 析 子 系统 

情报 感知 分 析 子 系统 建立 并 更 新 原始 素材 库 ,为 系统 提供 基础 数据 ; 实现 数据 的 归 类 
存储 与 数据 更 新 ; 能 够 按 数据 来 源 分 类 存储 原始 数据 ,形成 原始 资源 库 , 并 对 其 进行 索引 ， 
供 系 统 对 原始 信息 的 查找 ; 能 够 对 存储 的 数据 按照 更 新 策略 定期 进行 更 新 ; 对 系统 所 采集 
到 的 信息 进行 数据 的 深入 分 析 和 挖掘 ,为 实现 用 户 认 知 信息 检索 功能 奠定 基础 ,以 支撑 上 层 
的 业务 需求 。 具 体 功能 包括 : 底层 挖掘 , 即 实现 文本 挖掘 的 预 处 理 和 通用 挖掘 流程 ,形成 控 
掘 资 料 库 ; 实时 存储 ,以 数据 库 和 文件 两 种 形式 存储 并 索引 , 按 策 略 进行 更 新 ,实现 多 维度 
检索 库 ; 定向 跟踪 ,对 特定 关注 对 象 进行 定向 跟踪 分 析 ; 热点 挖掘 ,热点 信息 自动 聚 类 , 通 
过 机 器 学 习 自 动 发 现 热 点 ; 统计 分 析 , 支 持 对 入 库 信息 的 智能 统计 报表 ; 演变 分 析 , 关 注 对 
象 的 发 展 . 扩 散 、 分 布 等 分 析 ; 对 比分 析 , 实 现 对 象 内 在 相关 性 、. 连 动 关系 分 析 与 信息 溯源 ; 
决策 支持 ,为 决策 提供 数据 依据 ,估计 决策 影响 。 

3. 大 数据 服务 提供 子 系统 

大 数据 服务 提供 子 系统 主要 实现 提供 各 种 动态 快讯 智能 简报 、 热 点 分 析 报 告 ,专题 深 
度 报告 统计 分 析 报 告 、 季 度 /年 度 研究 报告 .多 功能 检索 ,分 类 导航 浏览 等 功能 ,帮助 情报 分 
析 人 员 应 用 恰当 的 分 析 方法 与 技术 ,深入 分 析 情 报 数据 库 的 信息 ,生成 简报 .报表 、 报 告 等 形 
式 的 情报 产品 ,并 提供 情报 检索 与 决策 支持 服务 ,推送 至 情报 用 户 使 用 。 实 现 情报 产品 与 服 
务 的 展示 与 推送 ,包括 快讯 ,简报 ,专题 报告 .统计 分 析 报 告 . 季 度 报 告 、 年 度 报告 等 ,服务 对 
象 根据 个 性 化 需求 定制 的 产品 与 服务 进行 推送 。 


8.5.2 处 理 流程 


整个 开源 情报 分 析 系统 的 业务 流程 如 图 8-2 所 示 。 

1. 信息 采集 业务 

信息 采集 的 主要 任务 是 将 互联 网 ,标准 资源 库 、 企 业 资 源 库 `. 现 有 工程 数据 ,内 部 资料 和 
其 他 来 源 的 数据 收集 起 来 ,形成 原始 数据 。 对 采集 到 的 原始 数据 进行 一 定 的 预 处 理 ,进行 粗 
分 类 并 存储 ,形成 原始 素材 库 ,存储 客观 的 基础 素材 ,并 对 原始 素材 库 做 索引 以 支持 原始 信 
息 的 定位 。 数 据 采集 与 存储 层 技术 框架 要 数据 采集 服务 ,采集 到 的 网 络 信息 数据 可 以 存储 
在 基于 Hadoop 搭建 的 私有 云 平 台 , 采 集 对 象 包括 网 络 爬 虫 获取 的 数据 和 标准 资源 库 . 专 有 
数据 库 等 接口 数据 。 接 口 数据 可 通过 相关 接口 直接 获取 并 存储 和 索引 。 

(1) 疏 虫 策略 设置 。 首 先 , 根 据 用 户 提供 的 主题 关键 词 ` 相 关 文 档 训练 主题 向 量 , 并 形 
成 训练 库 ,将 训练 好 的 主题 向 量 存储 在 主题 向 量 库 中 ; 然后 ,根据 用 户 需 求 配置 疏 虫 的 采集 
规则 和 更 新 频率 。 

(2) 数据 采集 。 在 每 一 轮 数 据 仆 取 过 程 中 ,的 虫 根据 设 定 的 采集 规则 和 URL 得 分 选择 
一 定数 量 的 URL 来 抓 取 ,接着 解析 原始 网 页 ,提取 网 页 正文 和 外 链 。 针 对 每 一 个 外 链 , 根 
据 其 对 应 锚 文本 与 主题 向 量 的 相关 度 赋予 分 值 , 各 个 待 抓 取 链接 按照 得 分 高 低 排序 ,使 得 那 
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图 8-2 开源 情报 分 析 系 统 架 构图 
些 主题 相关 的 网 页 得 到 优先 抓 取 。 同 时 .根据 用 户 设 定 的 更 新 频率 对 网 页 库 中 已 经 过 
网 页 进行 重新 采集 。 

2. 开源 情报 加 工 与 分 析 业 务 


期 的 


开源 情报 加 工 与 分 析 业 务实 现 对 开源 情报 进行 深度 挖掘 加 工 ,自动 提炼 信息 关键 词 、 摘 
要 ,针对 结构 化 后 的 数据 做 索引 。 经 过 筛选 自动 生成 相应 文档 或 报表 ,对 情报 进行 分 类 ,发 
现 热点 信息 ,定向 跟踪 某 情报 概况 的 统计 分 析 , 为 相关 决策 提供 数据 支持 等 ,形成 情报 服务 
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和 产品 的 数据 基础 。 数 据 分 析 可 以 分 为 两 层 ,底层 挖掘 层 的 功能 主要 包含 : 将 获取 初始 数 
据 进行 清理 并 得 到 规范 后 每 条 记录 的 元 数据 ,然后 对 其 中 的 文本 信息 进行 分 类 与 聚 类 ,提取 
摘要 与 关键 词 等 ,并 将 它们 作为 元 数据 扩充 到 原始 数据 集中 ,之 后 再 对 这 些 信息 进行 初步 的 
索引 ,定制 更 新 策略 对 历史 数据 进行 备份 并 加 入 新 数据 。 上 层 挖掘 包含 了 信息 检索 与 智能 
分 析 两 个 部 分 。 信 息 检索 部 分 其 中 又 分 为 全 文 检索 、 摘 要 检索 、 主 题 检索 、 关 键 词 检索 、 高 级 
检索 五 大 功能 。 用 Lucene 开源 全 文 检索 引擎 提供 的 接口 来 定制 MapReduce 作业 进行 高 效 
的 建 索 引 操作 。 智 能 分 析 部 分 主要 包含 了 热点 的 发 现 ` 演 变 分 析 、 预 测 三 个 关联 度 比 较 高 的 
功能 ,另外 还 有 信息 的 溯源 、 情 感 分 析 、 定 向 跟踪 、 关 联 分 析 、 决 策 支 持 、 统 计 分 析 等 几 个 分 功 
能 。 针 对 下 层 挖掘 出 的 信息 按时 间 段 进行 分 类 后 ,通过 主题 挖掘 技术 从 中 找 出 热点 ,并 通过 
历史 数据 中 追踪 热点 的 生命 周期 模型 ,研究 热点 演变 的 过 程 。 

3. 情报 展示 与 服务 业务 

情报 展示 与 服务 业务 存储 情报 服务 和 产品 的 历史 数据 ,将 平台 的 服务 和 产品 采用 多 种 
方式 发 布 、 推 送 给 不 同 的 用 户 , 包 括 订阅 .热点 周报 ,专题 报告 及 年 度 汇总 报告 等 。 


8.6 开源 情报 分 析 的 发 展 趋势 


大 数据 环境 下 的 情报 分 析 是 开源 情报 分 析 研 究 的 一 个 重要 领域 。 大 数据 和 大 数据 分 析 
为 开源 情报 分 析 研 究 的 发 展 带 来 了 巨大 的 机 遇 , 大 数据 有 助 于 提升 公开 源 情报 的 基础 性 价 
值 ,在 大 数据 环境 下 ,从 业 人 员 需 要 对 开源 情报 收集 、 分 析 体 系 进行 重新 审视 和 系统 研究 ,以 
努力 推动 公开 源 情报 分 析 在 政治 、 军 事 、 安 全 ,技术 、 经 济 等 领域 的 应 用 与 实践 。 开 源 情 报 分 
析 一 个 非常 重要 的 发 展 趋势 就 是 引入 大 数据 ,应 用 大 数据 .探索 大 数据 ,利用 大 数据 、 研 发 大 
数据 。 

1. 引入 大 数据 

大 数据 的 价值 链 涉 及 数据 获取 、 存 储 、 检 索 、 共 享 、 分 析 和 展示 等 多 个 环节 ,与 传统 情报 
分 析 工 作 的 价值 链 大 致 相同 。 开 源 情报 分 析 可 将 在 信息 采集 、 整 序 、 组 织 , 检 索 、 分 析 和 可 视 
化 等 方面 成 熟 的 理论 方法 和 技术 应 用 到 大 数据 的 工作 中 ,在 促进 大 数据 研究 发 展 的 同时 , 扩 
大 传统 情报 服务 范围 。 

2. 应 用 大 数据 

大 数据 的 兴起 和 发 展 能 够 丰富 传统 开源 情报 分 析 研 究 中 事实 数据 的 来 源 ,使 开源 情报 
分 析 研 究 对 象 得 以 扩展 。 不 同 的 事实 数据 互相 补充 、 相 互 印证 ,能 够 促进 传统 情报 工作 水 平 
和 人 情报 产品 质量 的 提升 。 多 元 化 的 信息 需要 根据 分 析 需 求 加 以 融合 ,这 可 能 需要 语义 层面 
上 的 技术 支持 ,这 就 涉及 数据 挖掘 、 机 器 学 习 等 技术 。 要 寻求 情报 研究 的 客观 性 , 握 除 过 多 
的 主观 意愿 .也 需要 多 种 技术 来 支撑 。 这 一 发 展 趋势 是 大 数据 时 代 下 的 必然 。 

3. 探索 大 数据 

探索 大 数据 以 开源 信息 为 主 :汇集 海量 数据 ,通过 定量 的 方式 来 描述 .分 析 、` 评 判 科技 发 
展 的 态势 ,服务 于 科技 决策 。 评 估 科 技 态 势 的 手段 及 工具 近年 来 呈 跳 跃 性 发 展 ,目标 要 求 也 
越 来 越 高 , 正 从 科技 信息 向 开源 情报 、 进 而 迅速 向 科技 解析 (Academic Analytics 或 





196 网 络 信息 内 容 安 全 





Research Analytics) 转 化 利用 大 数据 ,大 数据 将 催生 从 数据 中 挖掘 和 发 现 知识 的 新 需求 。 
大 数据 的 发 展 , 将 加 速 知识 服务 水 平和 能 力 的 快速 提升 。 

4. 利用 大 数据 

海量 开源 科技 情报 中 蕴含 着 大 量 的 可 提炼 知识 ,对 闭 源 知识 起 到 了 和 良好 的 补充 ,借助 数 
据 挖掘 技术 ,建立 与 闭 源 知识 对 象 的 索引 和 相互 关系 ,可 组 建 一 个 情报 领域 知识 库 , 构 建 情 
报 分 析 人 员 专 用 的 情报 池 , 从 而 得 到 更 广泛 、 更 深层 的 知识 。 同 时 ,根据 保密 的 需要 将 平台 
分 为 公共 共享 平台 和 闭 源 共 享 平台 ,以 便于 开源 情报 分 析 人 员 之 间 的 交流 ,协作 ,实现 情报 
成 果 的 快速 挖掘 、 转 换 和 共享 。 开展 决 策 支持 工作 ,利用 大 数据 ,发挥 知 识 服务 先导 作用 。 

5. 研发 大 数据 

大 数据 的 客观 存在 和 对 大 数据 的 刚性 需求 需要 尽早 地 对 大 数据 的 技术 发 展 和 变革 等 进 
行 探索 和 研发 ; 需要 对 大 数据 技术 开展 技术 跟踪 ,进行 实验 性 转化 和 探索 性 应 用 ; 需要 发 
现 相关 技术 与 科技 信 工 作 的 结合 点 和 结合 方式 ,凸显 技术 应 用 领先 优势 。 大 数据 之 大 , 源 于 
信息 的 开源 。 随 着 大 数据 海量 地 不 断 增长 ,相信 不 久 的 将 来 ,每 个 人 都 必须 依靠 特定 的 深度 
精确 的 情报 系统 框架 。 在 此 框架 之 下 ,了 解 外 部 世界 并 与 之 互动 ,而 不 是 靠 简单 的 网 上 搜索 
系统 。 在 大 数据 时 代 , 科 技 态势 的 评估 必须 从 科技 信息 、 科 技 情报 向 科技 解析 转化 ,其 中 科 
技 态势 的 评估 以 描述 现状 为 主 ,预测 分 析 以 预测 趋势 为 主 , 而 战略 前 瞻 以 规划 目标 为 主 。 总 
之 ,无 论 是 事实 、 可 能 ,希望 ,都 必须 以 “数据 说 话 ”, 而 且 , 最 终 的 目的 是 实现 “预测 未 来 ,不 如 
创造 未 来 ”。 





8.7 本 章 小 结 


随 着 互联 网 技术 的 发 展 ,开源 情报 涉及 的 情报 源 纷繁 复杂 数量 巨大 、 价 值 重 大 ,依托 开 
源 情 报 处 理 系统 更 好 地 挖掘 利用 网 络 中 的 开源 情报 ,并 辅助 科技 情报 决策 是 本 章 立 意 的 初 
时。 本 章 首先 介绍 了 开源 情报 分 析 的 基本 概念 和 特点 ,并 对 开源 情报 分 析 中 常用 的 一 些 评 
估 指 标 进行 了 介绍 ,详细 论述 了 开源 情报 大 数据 分 析 中 的 常用 方法 ,通过 分 析 互 联网 开源 情 
报 分 析 系 统 框架 ,探讨 了 如 何 建立 具有 更 强 决 策 力 、 洞 察 发 现 力 和 流程 优化 能 力 的 情报 处 理 
系统 。 当 前 ,网 络 开源 情报 分 析 系 统 已 经 逐步 和 大 数据 分 析 处 理 技术 结合 ,但 应 用 于 大 规模 
开源 情报 处 理工 作 尚 需 长 期 的 过 程 ,需要 在 实践 过 程 中 不 断 完善 和 发 展 。 


习 题 


. 网 络 开源 情报 的 特点 有 哪些 ? 

. 网 络 开源 情报 分 析 技 术 的 核心 功能 主要 包括 哪 几 个 方面 ? 

- 开源 情报 大 数据 分 析 的 常用 方法 有 哪些 ?” 试 比较 分 析 各 自 的 特点 。 
. 简 述 开源 情报 分 析 的 流程 。 

. 如 何 衡量 开源 情报 分 析 中 收集 得 到 的 情报 可 信 度 ? 


an 是 
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